토큰화 정제 정규화 토큰화(tokenization) 주어진 코퍼스에서 토큰이라는 단위로 나누는 작업 1. 단어 토큰화(word to tokenization)의 기준 토큰의 기준을 단어(word)로 하는 경우, 단어 토큰화(word to tokenization)이라고 한다. 토큰화 작업을 단순하게 코퍼스에서 구두점을 제외하고 공백 기준으로 잘라내는 작업이라고 간주할 수 없다. 사용자의 목적에 맞게 기준을 세우고 토큰화를 진행한다. 영어를 기준으로 Don’t와 Jone’s를 토큰화하는 경우는 다음과 같다. Don't Don t Dont Do n't Jone's Jone s Jone JonesNLTK 영어 코퍼스를 토큰화하기 위한 도구들을 제공해준다. 대표적으로 3개의 토큰화 결과는 다음..