
🎯텍스트 처리 - 텍스트로부터 고품질의 정보를 유도하기 위해 필요한 작업 - 텍스트를 가공해서 표준화 된 + 계산 가능한 + 유용한 형태로 변환하는 것 (전처리도 포함) ex) Tokenization - 본질의 의미는 같지만 활용 형태가 다른 단어가 존재 ex) woodchuck = woodchucks = Woodchuck = Woodchucks = ... - 텍스트 처리를 텍스트 분석으로 보는 시각 : 활용 형태가 다른 텍스트 샘플들로부터 패턴을 인식하여 tokenization을 수행 ex) 공백을 활용한 단어의 분리, 단어의 어근을 활용한 정규화 등 🎯 텍스트 정규화 : 텍스트를 이전에 없던 단일 표준 형식으로 변환하는 과정 (1) tokenization (토큰화) 작업 - 텍스트에서 단어를 분리하고..
🚀 What I Studied/NLP
2022. 10. 22. 21:47