본문 바로가기
머신러닝/NLP

NLP Machine Learning Workflow

by su0a 2024. 5. 13.

1. 수집

학습시켜야 할 데이터 수집 -> corpas (텍스트 집합)  

파일 형식 : txt, csv, xml

 

2. 점검 및 탐색

데이터의 구조, 노이즈 데이터 등을 확인하고 데이터를 정제 방법 결정 -> EDA (탐색적 데이터 분석)

 

3. 전처리 및 정제

  • 토큰화
  • 정제
  • 정규화
  • 불용어 제거

4. 모델링 및 훈련

(1) 머신러닝 알고리즘 선택 후 모델링

(2) 전처리가 완료된 데이터로 학습 (training)

*데이터를 훈련용,검증용,테스트용으로 나눈 후 훈련용 데이터로만 학습 진행*

 

5. 평가

테스트용 데이터로 성능 평가

 

6. 배포

성공적으로 훈련이 된 것으로 판단되면 완성된 모델을 배포