어간 추출(Stemming) & 표제어 추출(Lemmatization) 하나의 단어로 일반화시켜서 문서 내의 단어 수를 줄이는 것이다. ⇒ 정규화의 지향점은 갖고 있는 코퍼스로부터 복잡성을 줄이는 것이다. 1. 표제어 추출(Lemmatization) 단어들이 다른 형태를 가지더라도 그 뿌리 단어를 찾아서 단어의 개수를 줄일수 있는지 판단하는 것이다. 💡 1. 형태학적 파싱 → 어간(stem) & 접사(affix) 구성 요소를 분리하는 작업 ex) cats → cat , -s 2. NLTK의 WordNetLemmatizer 표제어 추출 도구 from nltk.stem import WordNetLemmatizer nltk.download('wordnet') lemmatizer = WordNetLemmatiz..