[ML] Data EDA, Cleaning, Feature Extraction (Pandas)
1. Data EDA는 간단히 말하면 Data 유형을 정리하고 서로의 연관성을 확인 하는 것이다. 분석, 결과 도출 하는 과정에서 지속적으로 해당 Data에 대한 탐색과 이해를 기본적으로 가져야한다. 여기서 1) 상관계수 2) 왜도, 첨도 3) 이상치를 조사하고 수치형, 범주형 data의 통계적 분석, 첨도 왜도 이상치 상관관계 분석 해야한다. df_number = df.select_dtypes(include=np.number) df_number.info() # 수치형 data 분석 df_number.describe() # 통계적 분석 2. Cleaning 데이터를 올바르고 효율적으로 사용하기 위해서 좋은데이터를 사용해야하는데 좋은 데이터는 완결성, 유일성, 통일성을 특징으로 갖는다. 결측치가 있는 경우..