
1. 수집
학습시켜야 할 데이터 수집 -> corpas (텍스트 집합)
파일 형식 : txt, csv, xml
2. 점검 및 탐색
데이터의 구조, 노이즈 데이터 등을 확인하고 데이터를 정제 방법 결정 -> EDA (탐색적 데이터 분석)
3. 전처리 및 정제
- 토큰화
- 정제
- 정규화
- 불용어 제거
4. 모델링 및 훈련
(1) 머신러닝 알고리즘 선택 후 모델링
(2) 전처리가 완료된 데이터로 학습 (training)
*데이터를 훈련용,검증용,테스트용으로 나눈 후 훈련용 데이터로만 학습 진행*
5. 평가
테스트용 데이터로 성능 평가
6. 배포
성공적으로 훈련이 된 것으로 판단되면 완성된 모델을 배포
'머신러닝 > NLP' 카테고리의 다른 글
| padding & one-hot-encoding (0) | 2024.05.14 |
|---|---|
| Integer Encoding (정수 인코딩) (0) | 2024.05.14 |
| 표제어 추출, 어간 추출 (0) | 2024.05.13 |
| cleaning(정제) , normalization(정규화), Stopword(불용어) (0) | 2024.05.13 |
| Word Tokenization (단어 토큰화) (0) | 2024.05.13 |