본문 바로가기
머신러닝/데이터분석

데이터 분석 기초

by su0a 2024. 3. 30.

데이터 불러오기

1. 판다스 라이브러리 가져오기 : import pandas as pd

2. csv 파일 판다스에 있는 함수를 이용하여 데이터 프레임으로 변환하기: pd.read_csv(파일 이름)

정답 저장 후 csv로 변환

1. 정답 저장하기: df[정답 컬럼 명]=넣을 값

2. csv 변환: cs.to_csv(파일이름)

데이터프레임 정보 확인

1. 데이터개수, 열이름, 결측값 수, 데이터 타입확인: df.info()

2. 데이터셋의 수치형 컬럼별 주요 통계량을 summary: df.describe()

3. 데이터 컬럼확인: df.columns

4. 데이터 인덱스확인: df.index

5. 행,열 크기 확인: df.shape

6. 데이터타입 확인: df[컬럼명].dtype, 데이터 타입을 변경해야할 때 용이

7. 데이터 간의 상관관계: df.corr()

8. 상위 데이터 확인: df.head() , 하위 데이터 확인: df.tail()

9. 무작위 데이터 확인: df.sample()

10. 데이터 프레임 형태로 출력하고 싶은 경우: df.display(df.head()) 괄호 안에 여러개 넣으면 각각 데이터 프레임 형태로 출력됨

11. 데이터 결측값 확인: df.isnull(), df.isna(), df.notnull()

12. 결측값 개수 확인: df.isnull().sum()

13. 각 칼럼의 feature별 수량 확인: df.value_counts() , 각 피처의 비율이 궁금하면 df.value_counts(normalize=True)

결측값 제거

df.dropna()

결측값 채우기

1. 평균으로 채우기: df[column].fillna(df[column].mean())

특정 열 제거

df.drop(열 이름,axis=1)

검증 데이터 만들기

from sklearn.model_selection import train_test_split

x_train, x_valid, y_train, y_valid = train_test_split(x_train, y_train, test_size=0.3, random_state=42)

피처의 중요도 확인

importances=model.feature_importances_    #피처(feature)의 중요도

names=model.feature_names_in     #피처(feature)의 이름

오차 검증

mean_square_error(y_valid,만든 모델로 예측한 y값,squared=True)

데이터 전체구간을 n개의 동일한 길이로 나눠 데이터 분류

pd.cut(pd[column],bins=n,labels=[])

데이터 전체 크기를 n개의 동일한 개수로 나눠 분류

pd.qcut(pd[column],q=n,labels=[])

파이썬 warning 무시

import warnings

warnings.simplefilter(action='ignore', category=FutureWarning)

한글 폰트 사용

fe = fm.FontEntry(fname='NotoSansKR-Regular.off', name='NotoSansKR')

fm.fontManager.ttflist.insert(0,fe)

plt.rc('font',family='NotoSansKR')

'머신러닝 > 데이터분석' 카테고리의 다른 글

데이터가공 - 문자열 변환  (0) 2024.03.30
다중 공선성  (0) 2024.03.30
식별 가능한 칼럼 찾기  (0) 2024.03.30
피처 중요도 확인  (0) 2024.03.30
데이터 시각화  (0) 2024.03.30