본문 바로가기
머신러닝/NLP

Integer Encoding (정수 인코딩)

by su0a 2024. 5. 14.

 

정수 인코딩

word -> integer

컴퓨터는 숫자만 처리할 수 있기 때문에 단어를 숫자로 변환해 주어야 함

 

 

정수 인코딩 방법

1. dictionary 를 사용하여 문장 내의 단어를 직접 분류 후 각 단어마다 숫자 부여

2. Counter 모듈 사용하여 단어의 빈도 수 카운트 후 각 단어마다 숫자 부여

from collections import Counter

all_words_list = 단어들이 중복되어 들어가 있는 리스트
vocab = Counter(all_words_list) # 각 단어마다 빈도수의 값이 저장됨
word_to_index = {} # 단어와 인덱스를 key와 value로 저장하기 위해 딕셔너리 사용
i = 0 # 각 단어마다 고유 번호 지정하기 위해 사용, 0부터 시작

for (word, frequency) in vocab:
    i += 1
    word_to_index[word] = i

 

3. NLTK의 FreqDist 사용 (Counter 와 동일한 방법으로 사용)