일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- tensorflow
- quantification
- Linux
- jmeter
- hackerrank
- Artificial Intelligence
- autogluon
- 백준
- leetcode
- sliding video q-former
- Anaconda
- Github
- MySQL
- Python
- timechat
- transference
- ma-lmm
- q-former
- long video understanding
- timestamp-aware frame encoder
- CNN
- Server
- 용어
- error
- memory bank
- secure-file-priv
- LeNet-5
- Kaggle
- multimodal machine learning
- 코딩테스트
- Today
- Total
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- tensorflow
- quantification
- Linux
- jmeter
- hackerrank
- Artificial Intelligence
- autogluon
- 백준
- leetcode
- sliding video q-former
- Anaconda
- Github
- MySQL
- Python
- timechat
- transference
- ma-lmm
- q-former
- long video understanding
- timestamp-aware frame encoder
- CNN
- Server
- 용어
- error
- memory bank
- secure-file-priv
- LeNet-5
- Kaggle
- multimodal machine learning
- 코딩테스트
- Today
- Total
Juni_DEV
1. Tabular 데이터 모델링 (전처리 및 시각화) 본문
df.info() : 데이터프레임 형태, 타입, null 여부를 한 번에 보기
df.index : 데이터프레임의 인덱스
df.columns : 데이터프레임의 컬럼명
df.values : 데이터프레임의 값
df.isnull() : 데이터프레임 모든 컬럼에 대한 null 한 번에 확인
df.isnull().sum() : 컬럼 - 개수로 표시
df.describe() : 데이터프레임에서 숫자형에 대한 통계정보 보기
df['특정컬럼'] : 특정 컬럼의 값만 확인, 검색
(df ['컬럼'] == '') | (df['컬럼'] == ' ') : 해당 컬럼에 공백이 있는지 확인
df['컬럼'].replace(' ', 0, inplace = True) : 컬럼의 공백을 0으로 변경
df['컬럼'] = df['컬럼'].astype(float) : 컬럼의 type을 float로
df['컬럼'].replace(['Yes', 'No'], [1, 0], inplace=True) : 컴퓨터의 이해를 돕기 위해 문자열을 숫자로 변경해줌, 컬럼 붙여 쓸 때는 소괄호 X
df.drop(['컬럼'], axis=1, inplace = True) : 해당 컬럼 제거
df.dropna(inplace=True) : NaN value가 존재하는 행 또는 열 삭제
%matplotlib inline : notebook을 실행한 브라우저에서 바로 볼 수 있도록 적용
df['컬럼'].value_counts().plot(kind = 'bar') : plot 함수 활용해서 '컬럼'분포에 대한 bar차트 그리기
df.select_dtypes('컬럼') : number(int,float) 컬럼에 대해 검색
import seaborn as sns : seaborn 라이브러리 임포트
sns.histplot(df['컬럼1']) : seaborn histplot 이용해서 그래프 그리기
sns.histplot(data=df, x='컬럼1', hue='컬럼2') : hue 인수에 카테고리 값을 가지는 변수의 이름을 지정하면 카테고리 값에 따라 다르게 시각화됨
df[['컬럼1','컬럼2','컬럼3']].corr() : 컬럼 간의 상관관계 결과 확인
sns.heatmap(df[[['컬럼1','컬럼2','컬럼3']].corr(), annot=True) : seaborn 히트맵 그래프 (annot=True : annotation)
df.to_csv('data_v1_save.csv', index=False) : 파일 저장하기, 기존 인덱스 제외
'Artificial Intelligence' 카테고리의 다른 글
3. Tabular 데이터 모델링 (딥러닝) (0) | 2022.07.18 |
---|---|
2. Tabular 데이터 모델링 (머신러닝) (0) | 2022.07.11 |
Anaconda 환경 세팅 및 CUDA, cuDNN 설치 (Window, AMD Ryzen GPU) (0) | 2022.05.26 |
Cross validation 종류 (0) | 2019.06.18 |
인공지능 용어 정리 (3) (0) | 2019.06.11 |