본문 바로가기
머신러닝/NLP

cleaning(정제) , normalization(정규화), Stopword(불용어)

by su0a 2024. 5. 13.

cleaning(정제)

corpas로부터 노이즈 데이터를 제거

 

 

노이즈 데이터 제거 방법

1. 등장 빈도가 적은 단어 

텍스트 데이터에서 너무 적게 등장해서 자연어 처리에 도움이 되지 않는 단어들 제거

 

2. 길이가 짧은 단어 

영어권 언어에서는 길이가 짧은 단어들은 대부분 불용어에 해당 

단어가 아닌 구두점들까지도 한번에 제거 가능

 

normalization(정규화)

표현 방법이 다른 단어들을 통합시켜 같은 단어로 만듦

 

 

정규화 방법

1. 규칙에 기반하여 표기가 다른 단어들을 통합 (어간 추출, 표제어 추출)

같은 의미를 가진 서로 다른 단어들을 하나의 단어로 통합

 

2. 대, 소문자 통합 (upper, lower 함수 사용)

특정 단어가 대문자 혹은 소문자로 쓰였을 경우 두 단어를 다르게 인식하지만 대,소문자를 통합할 경우 같은 단어로 인식 할 수 있음

 

 

Stopword(불용어)

큰 의미가 없는 단어

 

 

불용어 제거 방법

NLTK 내 패키지 사용

from nltk.corpus import stopwords

'머신러닝 > NLP' 카테고리의 다른 글

padding & one-hot-encoding  (0) 2024.05.14
Integer Encoding (정수 인코딩)  (0) 2024.05.14
표제어 추출, 어간 추출  (0) 2024.05.13
Word Tokenization (단어 토큰화)  (0) 2024.05.13
NLP Machine Learning Workflow  (0) 2024.05.13