Juni_DEV

1. Tabular 데이터 모델링 (전처리 및 시각화) 본문

Artificial Intelligence

1. Tabular 데이터 모델링 (전처리 및 시각화)

junni :p 2022. 7. 5. 16:58
반응형

df.info() : 데이터프레임 형태, 타입, null 여부를 한 번에 보기  
df.index : 데이터프레임의 인덱스  
df.columns : 데이터프레임의 컬럼명  
df.values : 데이터프레임의 값   
df.isnull() : 데이터프레임 모든 컬럼에 대한 null 한 번에 확인
df.isnull().sum() : 컬럼 - 개수로 표시
df.describe() : 데이터프레임에서 숫자형에 대한 통계정보 보기
df['특정컬럼'] : 특정 컬럼의 값만 확인, 검색
(df ['컬럼'] == '') | (df['컬럼'] == ' ') : 해당 컬럼에 공백이 있는지 확인
df['컬럼'].replace(' ', 0, inplace = True) : 컬럼의 공백을 0으로 변경
df['컬럼'] = df['컬럼'].astype(float) : 컬럼의 type을 float로 
df['컬럼'].replace(['Yes', 'No'], [1, 0], inplace=True) : 컴퓨터의 이해를 돕기 위해 문자열을 숫자로 변경해줌, 컬럼 붙여 쓸 때는 소괄호 X
df.drop(['컬럼'], axis=1, inplace = True) : 해당 컬럼 제거
df.dropna(inplace=True) : NaN value가 존재하는 행 또는 열 삭제


%matplotlib inline : notebook을 실행한 브라우저에서 바로 볼 수 있도록 적용

df['컬럼'].value_counts().plot(kind = 'bar') : plot 함수 활용해서 '컬럼'분포에 대한 bar차트 그리기
df.select_dtypes('컬럼') : number(int,float) 컬럼에 대해 검색  


import seaborn as sns : seaborn 라이브러리 임포트
sns.histplot(df['컬럼1']) : seaborn histplot 이용해서 그래프 그리기
sns.histplot(data=df, x='컬럼1', hue='컬럼2') : hue 인수에 카테고리 값을 가지는 변수의 이름을 지정하면 카테고리 값에 따라 다르게 시각화됨
df[['컬럼1','컬럼2','컬럼3']].corr() : 컬럼 간의 상관관계 결과 확인
sns.heatmap(df[[['컬럼1','컬럼2','컬럼3']].corr(), annot=True) : seaborn 히트맵 그래프 (annot=True : annotation)
df.to_csv('data_v1_save.csv', index=False) : 파일 저장하기, 기존 인덱스 제외

반응형
Comments