데이터가공 - 문자열 변환

1. Scikit-learn의 LabelEncoder 사용

from sklearn.preprocessing import LabelEncoder

model = LabelEncoder()

model.fit(df[column])

df[column] = model.predict(df[column])

문제점 :가중치의 차이가 생길 수 있음

2. 판다스의 get_dummies함수 사용

df_dummies = pd.get_dummies(df[column])

(실제 사용에서는 df_dummies를 원래 데이터 df에 붙여주고 get_dummies함수 적용해준 컬럼 drop)

3. enumerate 사용

dict = { text : i for i, text in enumerate(df[column]) }

df[column] = df[column].appplymap(lambda x: dict[x])

(여러 컬럼에 대해서도 사용 가능, 여러 컬럼을 한 컬럼으로 만든 후 text에 대입)

개발일기