Keras(케라스)의 텍스트 전처리

케라스 라이브러리

from tensorflow.keras.preprocessing.text import Tokenizer

단어집합 생성방법

#모든 단어를 단어집합으로 만드는 경우
tokenizer = Tokenizer() 

#빈도수 순으로 상위 n개의 단어만 사용하고 싶은경우 
tokenizer = Tokenizer(num_words = n , oov_token ='OOV') # n개의 단어만 단어집합으로 만들고 나머지는 oov처리

# fit_on_texts() 안에 corpas를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성
tokenizer.fit_on_texts(preprocessed_senteces)

각 단어마다 부여된 숫자 확인 방법

tokenizer.word_index

각 단어의 빈도수 확인 방법

tokenizer.word_counts

corpas 에 들어있는 단어들을 숫자로 변환

tokenizer.texts_to_sequences(preprocessed_sentences)

'머신러닝 > NLP' 카테고리의 다른 글

LM ( 언어모델 ) (0)	2024.05.14
데이터 분리 (0)	2024.05.14
padding & one-hot-encoding (0)	2024.05.14
Integer Encoding (정수 인코딩) (0)	2024.05.14
표제어 추출, 어간 추출 (0)	2024.05.13

개발일기

Keras(케라스)의 텍스트 전처리

'머신러닝 > NLP' 카테고리의 다른 글

티스토리툴바

Keras(케라스)의 텍스트 전처리

'머신러닝 > NLP' 카테고리의 다른 글

관련글

티스토리툴바