1. Scikit-learn의 LabelEncoder 사용
from sklearn.preprocessing import LabelEncoder
model = LabelEncoder()
model.fit(df[column])
df[column] = model.predict(df[column])
문제점 :가중치의 차이가 생길 수 있음
2. 판다스의 get_dummies함수 사용
df_dummies = pd.get_dummies(df[column])
(실제 사용에서는 df_dummies를 원래 데이터 df에 붙여주고 get_dummies함수 적용해준 컬럼 drop)
3. enumerate 사용
dict = { text : i for i, text in enumerate(df[column]) }
df[column] = df[column].appplymap(lambda x: dict[x])
(여러 컬럼에 대해서도 사용 가능, 여러 컬럼을 한 컬럼으로 만든 후 text에 대입)
'머신러닝 > 데이터분석' 카테고리의 다른 글
IQR(사분위수) 기반 이상치 검출 및 해결방안 (0) | 2024.03.30 |
---|---|
데이터 가공 - 데이터 증강 SMOTE (0) | 2024.03.30 |
다중 공선성 (0) | 2024.03.30 |
식별 가능한 칼럼 찾기 (0) | 2024.03.30 |
피처 중요도 확인 (0) | 2024.03.30 |