정수 인코딩
word -> integer
컴퓨터는 숫자만 처리할 수 있기 때문에 단어를 숫자로 변환해 주어야 함
정수 인코딩 방법
1. dictionary 를 사용하여 문장 내의 단어를 직접 분류 후 각 단어마다 숫자 부여
2. Counter 모듈 사용하여 단어의 빈도 수 카운트 후 각 단어마다 숫자 부여
from collections import Counter
all_words_list = 단어들이 중복되어 들어가 있는 리스트
vocab = Counter(all_words_list) # 각 단어마다 빈도수의 값이 저장됨
word_to_index = {} # 단어와 인덱스를 key와 value로 저장하기 위해 딕셔너리 사용
i = 0 # 각 단어마다 고유 번호 지정하기 위해 사용, 0부터 시작
for (word, frequency) in vocab:
i += 1
word_to_index[word] = i
3. NLTK의 FreqDist 사용 (Counter 와 동일한 방법으로 사용)
'머신러닝 > NLP' 카테고리의 다른 글
Keras(케라스)의 텍스트 전처리 (0) | 2024.05.14 |
---|---|
padding & one-hot-encoding (0) | 2024.05.14 |
표제어 추출, 어간 추출 (0) | 2024.05.13 |
cleaning(정제) , normalization(정규화), Stopword(불용어) (0) | 2024.05.13 |
Word Tokenization (단어 토큰화) (0) | 2024.05.13 |