본문 바로가기
머신러닝/NLP

표제어 추출, 어간 추출

by su0a 2024. 5. 13.

 

표제어 추출

단어들로부터 표제어를 찾는 과정

ex) am, are, is 의 표제어 : be

1. 어간

단어의 의미를 담고 있는 단어의 핵심 부분

2. 접사

단어에 추가적인 의미를 주는 부분

ex) cats : 어간 - cat , 접사 - s

 

표제어 추출 도구

from nltk.stem import WordNetLemmatizer

 

어간 추출

정해진 규칙만 보고 단어의 어미를 자르는 작업 

 

어간 추출 도구

from nltk.stem import PorterStemmer