표제어 추출
단어들로부터 표제어를 찾는 과정
ex) am, are, is 의 표제어 : be
1. 어간
단어의 의미를 담고 있는 단어의 핵심 부분
2. 접사
단어에 추가적인 의미를 주는 부분
ex) cats : 어간 - cat , 접사 - s
표제어 추출 도구
from nltk.stem import WordNetLemmatizer
어간 추출
정해진 규칙만 보고 단어의 어미를 자르는 작업
어간 추출 도구
from nltk.stem import PorterStemmer
'머신러닝 > NLP' 카테고리의 다른 글
padding & one-hot-encoding (0) | 2024.05.14 |
---|---|
Integer Encoding (정수 인코딩) (0) | 2024.05.14 |
cleaning(정제) , normalization(정규화), Stopword(불용어) (0) | 2024.05.13 |
Word Tokenization (단어 토큰화) (0) | 2024.05.13 |
NLP Machine Learning Workflow (0) | 2024.05.13 |