본문 바로가기

전체 글110

식별 가능한 칼럼 찾기 유사한 정보를 가진 칼럼들 중 하나의 칼럼이 다른 칼럼들의 값을 각각 하나씩만 가지면 그 칼럼을 식별 가능한 칼럼이라 한다. 사용법 def check_unique(text : str): if(len(train[train[식별가능한지 알고싶은 칼럼] == text][다른 칼럼].unique())!=1): return True else: return False check = list(map(check_unique, train[식별가능한지 알고싶은 칼럼].unique())) 식별 가능한 칼럼은 남기고 식별가능한 칼럼으로 구별될 수 있는 다른 칼럼들은 삭제한다. 2024. 3. 30.
피처 중요도 확인 1. 점 이연 상관관계 이용 각 컬럼이 연속변수면서 예측하고자 하는 값이 이진 변수일때 사용한다. 각 피처와 타겟 변수 사이의 상관관계 수치를 구할 수 있고 낮은 상관관계에 있는 특성들은 제거할 수 있다. 사용법 # pointbiserialr 함수를 사용하면 상관관계 수치와 p-value 값을 알 수 있다. from scipy.stats pointbiserialr feature_list = 타겟변수와의 상관관계를 알아보고 싶은 컬럼들을 리스트로 표현한 것 for feature in feature_list: correlation_org, p_value_org = pointbiserialr(train[feature], train['Outcome']) 2. RandomForest 모델 이용 랜덤 포레스트 모델.. 2024. 3. 30.
데이터 시각화 데이터 시각화하기 1. 선그래프 시간, 순서 또는 다른 연속적인 값에 따라 데이터의 변화를 시각화하는데 사용 이상치를 파악하거나 데이터의 패턴 확인 용이 사용법: plt.plot(x,y) , df[column].plot(y) 2. 막대그래프 범주형 데이터의 분포, 비교, 상대적 크기를 시각화하는데 사용 막대의 가로는 각각의 범주를 나타내고, 높이는 해당 범주의 크기나 빈도를 나타냄 두 데이터 간의 관계를 확인하고 싶을 땐 두 데이터의 값을 x,height에 각각 넣어줌 한 데이터의 크기를 보고싶을 땐 x 입력하지 않아도 됨(x를 index로 처리) (막대 그래프는 이산적인 데이터를 시각적으로 표현하기 때문에, 연속적인 데이터에 적합하지 않음) 사용법: plt.bar(x,height,width) 3. 파이.. 2024. 3. 30.
데이터 분석 기초 데이터 불러오기 1. 판다스 라이브러리 가져오기 : import pandas as pd 2. csv 파일 판다스에 있는 함수를 이용하여 데이터 프레임으로 변환하기: pd.read_csv(파일 이름) 정답 저장 후 csv로 변환 1. 정답 저장하기: df[정답 컬럼 명]=넣을 값 2. csv 변환: cs.to_csv(파일이름) 데이터프레임 정보 확인 1. 데이터개수, 열이름, 결측값 수, 데이터 타입확인: df.info() 2. 데이터셋의 수치형 컬럼별 주요 통계량을 summary: df.describe() 3. 데이터 컬럼확인: df.columns 4. 데이터 인덱스확인: df.index 5. 행,열 크기 확인: df.shape 6. 데이터타입 확인: df[컬럼명].dtype, 데이터 타입을 변경해야할 .. 2024. 3. 30.
하이퍼 파라미터 정의 모델 구조나 학습 알고리즘 자체에 의해 학습되는 것이 아니라, 사전에 사용자에 의해 설정되는 매개변수 ResNet의 하이퍼 파라미터 1. 깊이 ResNet의 깊이는 네트워크의 레이어 수를 나타낸다. 더 깊은 네트워크는 더 복잡한 패턴을 학습할 수 있지만, 과적합의 위험이 증가할 수 있다. 2. 블록구조 ResNet은 여러 개의 블록을 쌓아 만든다. 각 블록 안에는 여러개의 레이어가 들어갈 수 있고, 이 블록 구조를 조절할 수 있다. 3. 필터 크기와 개수 Convolutional 레이어에서 사용되는 필터 크기와 개수를 조절할 수 있다. 더 작은 필터 크기는 더 세부적인 특징을 학습할 수 있다. 4. 스트라이드와 패딩 Convolutional 레이어에서 사용되는 스트라이드와 패딩 값을 조절하여 출력 .. 2024. 3. 30.
딥러닝 cv - VGG 깊이가 깊어짐에 따라 성능에 어떤 영향을 미치는지 확인하기 위해 만든 모델 특징 3x3 필터만을 사용하여 컨볼루션 한다. 활성화 함수는 ReLU 함수를 사용한다. layer1 (convolution) 224x224x3 이미지를 224x224x64 특징맵으로 바꿔주는 레이어 64개의 3x3x3 필터를 사용하여 컨볼루션 한다. (padding=1, stride=1) 1개의 3x3x3 필터를 사용하면 224x224x1 특징맵이 나온다. 64개의 필터를 사용했기 때문에 224x224x64 특징맵이 나온다. layer2 (convolution) 224x224x64 특징맵을 224x224x64 동일한 크기의 특징맵으로 만든다. (정보 손실을 최소화하면서 더 깊은 레이어 구성하기 위해) 64개의 3x3x64 필터를 .. 2024. 3. 30.