데이터 불러오기
1. 판다스 라이브러리 가져오기 : import pandas as pd
2. csv 파일 판다스에 있는 함수를 이용하여 데이터 프레임으로 변환하기: pd.read_csv(파일 이름)
정답 저장 후 csv로 변환
1. 정답 저장하기: df[정답 컬럼 명]=넣을 값
2. csv 변환: cs.to_csv(파일이름)
데이터프레임 정보 확인
1. 데이터개수, 열이름, 결측값 수, 데이터 타입확인: df.info()
2. 데이터셋의 수치형 컬럼별 주요 통계량을 summary: df.describe()
3. 데이터 컬럼확인: df.columns
4. 데이터 인덱스확인: df.index
5. 행,열 크기 확인: df.shape
6. 데이터타입 확인: df[컬럼명].dtype, 데이터 타입을 변경해야할 때 용이
7. 데이터 간의 상관관계: df.corr()
8. 상위 데이터 확인: df.head() , 하위 데이터 확인: df.tail()
9. 무작위 데이터 확인: df.sample()
10. 데이터 프레임 형태로 출력하고 싶은 경우: df.display(df.head()) 괄호 안에 여러개 넣으면 각각 데이터 프레임 형태로 출력됨
11. 데이터 결측값 확인: df.isnull(), df.isna(), df.notnull()
12. 결측값 개수 확인: df.isnull().sum()
13. 각 칼럼의 feature별 수량 확인: df.value_counts() , 각 피처의 비율이 궁금하면 df.value_counts(normalize=True)
결측값 제거
df.dropna()
결측값 채우기
1. 평균으로 채우기: df[column].fillna(df[column].mean())
특정 열 제거
df.drop(열 이름,axis=1)
검증 데이터 만들기
from sklearn.model_selection import train_test_split
x_train, x_valid, y_train, y_valid = train_test_split(x_train, y_train, test_size=0.3, random_state=42)
피처의 중요도 확인
importances=model.feature_importances_ #피처(feature)의 중요도
names=model.feature_names_in #피처(feature)의 이름
오차 검증
mean_square_error(y_valid,만든 모델로 예측한 y값,squared=True)
데이터 전체구간을 n개의 동일한 길이로 나눠 데이터 분류
pd.cut(pd[column],bins=n,labels=[])
데이터 전체 크기를 n개의 동일한 개수로 나눠 분류
pd.qcut(pd[column],q=n,labels=[])
파이썬 warning 무시
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
한글 폰트 사용
fe = fm.FontEntry(fname='NotoSansKR-Regular.off', name='NotoSansKR')
fm.fontManager.ttflist.insert(0,fe)
plt.rc('font',family='NotoSansKR')
'머신러닝 > 데이터분석' 카테고리의 다른 글
데이터가공 - 문자열 변환 (0) | 2024.03.30 |
---|---|
다중 공선성 (0) | 2024.03.30 |
식별 가능한 칼럼 찾기 (0) | 2024.03.30 |
피처 중요도 확인 (0) | 2024.03.30 |
데이터 시각화 (0) | 2024.03.30 |