본문 바로가기

corpas1

Keras(케라스)의 텍스트 전처리 케라스 라이브러리from tensorflow.keras.preprocessing.text import Tokenizer 단어집합 생성방법#모든 단어를 단어집합으로 만드는 경우tokenizer = Tokenizer() #빈도수 순으로 상위 n개의 단어만 사용하고 싶은경우 tokenizer = Tokenizer(num_words = n , oov_token ='OOV') # n개의 단어만 단어집합으로 만들고 나머지는 oov처리# fit_on_texts() 안에 corpas를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성tokenizer.fit_on_texts(preprocessed_senteces) 각 단어마다 부여된 숫자 확인 방법tokenizer.word_index 각 단어의 빈도수 확인 방법toke.. 2024. 5. 14.

이전 1 다음

티스토리툴바