컬럼 내의 클래스별로 속한 데이터 수의 불균형으로 생기는 문제를 해결하기 위해 SMOTE알고리즘 사용
(ex: 성별이라는 컬럼 있을 때 남자가 100명 여자가 10명인 데이터가 있다면 테스트 데이터에서 성별을 남자로 예측할 가능성 높음)
사용이유
불균형한 데이터에서 소수 클래스의 샘플을 증강시켜 데이터를 균형있게 만듦
소수 클래스 샘플과 비슷한 데이터 생성 (합성 소수 샘플링 기술)
사용법
from imblearn.over_sampling import SMOTE
smote = SMOTE(random_state = 0)
X , y = smote.fit_resample(x , list(y)) #증강된 데이터 반환
'머신러닝 > 데이터분석' 카테고리의 다른 글
z-score 기반의 이상치 제거 (0) | 2024.03.30 |
---|---|
IQR(사분위수) 기반 이상치 검출 및 해결방안 (0) | 2024.03.30 |
데이터가공 - 문자열 변환 (0) | 2024.03.30 |
다중 공선성 (0) | 2024.03.30 |
식별 가능한 칼럼 찾기 (0) | 2024.03.30 |