NLP Machine Learning Workflow

1. 수집

학습시켜야 할 데이터 수집 -> corpas (텍스트 집합)

파일 형식 : txt, csv, xml

2. 점검 및 탐색

데이터의 구조, 노이즈 데이터 등을 확인하고 데이터를 정제 방법 결정 -> EDA (탐색적 데이터 분석)

3. 전처리 및 정제

4. 모델링 및 훈련

(1) 머신러닝 알고리즘 선택 후 모델링

(2) 전처리가 완료된 데이터로 학습 (training)

*데이터를 훈련용,검증용,테스트용으로 나눈 후 훈련용 데이터로만 학습 진행*

5. 평가

테스트용 데이터로 성능 평가

6. 배포

성공적으로 훈련이 된 것으로 판단되면 완성된 모델을 배포

padding & one-hot-encoding (0)	2024.05.14
Integer Encoding (정수 인코딩) (0)	2024.05.14
표제어 추출, 어간 추출 (0)	2024.05.13
cleaning(정제) , normalization(정규화), Stopword(불용어) (0)	2024.05.13
Word Tokenization (단어 토큰화) (0)	2024.05.13

개발일기