본문 바로가기

전체 글110

padding & one-hot-encoding [ padding ] padding 사용하는 이유각 문장마다 사용하는 단어의 개수 다르기 때문에 모든 문장의 길이를 맞추기 위해 사용 padding 방법1. Numpy로 패딩import numpy as npfrom tensorflow.keras.preprocessing.text import Tokenizertokenizer = Tokenizer()tokenizer.fit_on_texts(preprocessed_sentences) #corpas로 단어집합 생성encoded = tokenizer.text_to_sequences(preprocessed_sentences) #corpas의 각 단어를 정수로변환for sentence in encoded: while len(sentence) 2. Keras의.. 2024. 5. 14.

Integer Encoding (정수 인코딩) 정수 인코딩word -> integer컴퓨터는 숫자만 처리할 수 있기 때문에 단어를 숫자로 변환해 주어야 함 정수 인코딩 방법1. dictionary 를 사용하여 문장 내의 단어를 직접 분류 후 각 단어마다 숫자 부여2. Counter 모듈 사용하여 단어의 빈도 수 카운트 후 각 단어마다 숫자 부여from collections import Counterall_words_list = 단어들이 중복되어 들어가 있는 리스트vocab = Counter(all_words_list) # 각 단어마다 빈도수의 값이 저장됨word_to_index = {} # 단어와 인덱스를 key와 value로 저장하기 위해 딕셔너리 사용i = 0 # 각 단어마다 고유 번호 지정하기 위해 사용, 0부터 시작for (word, fre.. 2024. 5. 14.

표제어 추출, 어간 추출 표제어 추출단어들로부터 표제어를 찾는 과정ex) am, are, is 의 표제어 : be1. 어간단어의 의미를 담고 있는 단어의 핵심 부분2. 접사단어에 추가적인 의미를 주는 부분ex) cats : 어간 - cat , 접사 - s 표제어 추출 도구from nltk.stem import WordNetLemmatizer 어간 추출정해진 규칙만 보고 단어의 어미를 자르는 작업 어간 추출 도구from nltk.stem import PorterStemmer 2024. 5. 13.

cleaning(정제) , normalization(정규화), Stopword(불용어) cleaning(정제)corpas로부터 노이즈 데이터를 제거 노이즈 데이터 제거 방법1. 등장 빈도가 적은 단어 텍스트 데이터에서 너무 적게 등장해서 자연어 처리에 도움이 되지 않는 단어들 제거 2. 길이가 짧은 단어 영어권 언어에서는 길이가 짧은 단어들은 대부분 불용어에 해당 단어가 아닌 구두점들까지도 한번에 제거 가능 normalization(정규화)표현 방법이 다른 단어들을 통합시켜 같은 단어로 만듦 정규화 방법1. 규칙에 기반하여 표기가 다른 단어들을 통합 (어간 추출, 표제어 추출)같은 의미를 가진 서로 다른 단어들을 하나의 단어로 통합 2. 대, 소문자 통합 (upper, lower 함수 사용)특정 단어가 대문자 혹은 소문자로 쓰였을 경우 두 단어를 다르게 인식하지만 대,소문자를 통합할 경.. 2024. 5. 13.

Word Tokenization (단어 토큰화) 1. 단어 토큰화문장 내에서 단어를 기준으로 토큰화 2. 단어 토큰화 함수from nltk.tokenize import word_tokenizefrom nltk.tokenize import WordPunctTokenizerfrom tensorflow.keras.preprocessing.text import text_to_word_sequenceword_tokenize, WordPunctTokenizer, text_to_word_sequence 함수는 각각 아포스트로피(작은따옴표- ' ) 를 처리하는 방법이 다름 (1) word_tokenizeprint('word_tokenize 함수를 사용한 토큰화 :',word_tokenize("Don't be fooled by the dark sounding name.. 2024. 5. 13.

NLP Machine Learning Workflow 1. 수집학습시켜야 할 데이터 수집 -> corpas (텍스트 집합) 파일 형식 : txt, csv, xml 2. 점검 및 탐색데이터의 구조, 노이즈 데이터 등을 확인하고 데이터를 정제 방법 결정 -> EDA (탐색적 데이터 분석) 3. 전처리 및 정제토큰화정제정규화불용어 제거4. 모델링 및 훈련(1) 머신러닝 알고리즘 선택 후 모델링(2) 전처리가 완료된 데이터로 학습 (training)*데이터를 훈련용,검증용,테스트용으로 나눈 후 훈련용 데이터로만 학습 진행* 5. 평가테스트용 데이터로 성능 평가 6. 배포성공적으로 훈련이 된 것으로 판단되면 완성된 모델을 배포 2024. 5. 13.

이전 1 2 3 4 5 6 ··· 19 다음

티스토리툴바