728x90
1. Data EDA는 간단히 말하면 Data 유형을 정리하고 서로의 연관성을 확인 하는 것이다.
분석, 결과 도출 하는 과정에서 지속적으로 해당 Data에 대한 탐색과 이해를 기본적으로 가져야한다.
여기서 1) 상관계수 2) 왜도, 첨도 3) 이상치를 조사하고
수치형, 범주형 data의 통계적 분석, 첨도 왜도 이상치 상관관계 분석 해야한다.
df_number = df.select_dtypes(include=np.number)
df_number.info() # 수치형 data 분석
df_number.describe() # 통계적 분석
2. Cleaning
데이터를 올바르고 효율적으로 사용하기 위해서 좋은데이터를 사용해야하는데 좋은 데이터는 완결성, 유일성, 통일성을 특징으로 갖는다.
결측치가 있는 경우 제거를 하는게 좋지만 때때론 안했을 때 좋은 결과가 나올 때도 있으니 필수는 아니다.
데이터 로드 -> 로드된거 확인 -> 타겟 데이터 확인-> 데이터 분리 -> 결측치 처리
728x90
'Bootcamp > AI' 카테고리의 다른 글
[DL]Deep Learning (0) | 2023.10.23 |
---|---|
[타이타닉] 타이타닉 경진대회 完 (0) | 2023.10.20 |
[ML] 교차 검증, HPO, XAI (0) | 2023.10.19 |
[ML] 앙상블, 부스팅 (0) | 2023.10.18 |