텍스트 전처리 2

[NLP - 텍스트 전처리] 2. Stemming, Lemmatization, Stopword

어간 추출(Stemming) & 표제어 추출(Lemmatization) 하나의 단어로 일반화시켜서 문서 내의 단어 수를 줄이는 것이다. ⇒ 정규화의 지향점은 갖고 있는 코퍼스로부터 복잡성을 줄이는 것이다. 1. 표제어 추출(Lemmatization) 단어들이 다른 형태를 가지더라도 그 뿌리 단어를 찾아서 단어의 개수를 줄일수 있는지 판단하는 것이다. 💡 1. 형태학적 파싱 → 어간(stem) & 접사(affix) 구성 요소를 분리하는 작업 ex) cats → cat , -s 2. NLTK의 WordNetLemmatizer 표제어 추출 도구 from nltk.stem import WordNetLemmatizer nltk.download('wordnet') lemmatizer = WordNetLemmatiz..

개발 공부/NLP 2022.04.13

[NLP - 텍스트 전처리] 1. Tokenizing, Cleaning, Nomalization

토큰화 정제 정규화 토큰화(tokenization) 주어진 코퍼스에서 토큰이라는 단위로 나누는 작업 1. 단어 토큰화(word to tokenization)의 기준 토큰의 기준을 단어(word)로 하는 경우, 단어 토큰화(word to tokenization)이라고 한다. 토큰화 작업을 단순하게 코퍼스에서 구두점을 제외하고 공백 기준으로 잘라내는 작업이라고 간주할 수 없다. 사용자의 목적에 맞게 기준을 세우고 토큰화를 진행한다. 영어를 기준으로 Don’t와 Jone’s를 토큰화하는 경우는 다음과 같다. Don't Don t Dont Do n't Jone's Jone s Jone JonesNLTK 영어 코퍼스를 토큰화하기 위한 도구들을 제공해준다. 대표적으로 3개의 토큰화 결과는 다음..

개발 공부/NLP 2022.04.13