728x90
지난 일주일동안 타이타닉 경진대회가 진행되었다.
pandas를 처음 배우면서 Data를 다뤄봤는데 할 수록 경험을 많이 쌓아야 감이 잡힐거 같았다.
Data를 다루는 순서를 확실히 잡고 가는게 좋을거 같다.
1) EDA
2) Data 전처리
- cleaning
- encoding
- scaling
3) K-Fold
4) Model train
5) Prediction test data
이러한 구조를 통해서 데이터들을 다루고 model에 따라 data 전처리를 어떻게 할지, feature들을 어떤 것을 쓸지 선택해야한다. 아직 EDA를 해서 뭘 선택 해야하는지 판단 하는 부분이 부족하다는 것을 알기에 다른 경진대회의 사람들을 따라하며 익혀야겠다.
728x90
'Bootcamp > AI' 카테고리의 다른 글
[DL]Deep Learning (0) | 2023.10.23 |
---|---|
[ML] 교차 검증, HPO, XAI (0) | 2023.10.19 |
[ML] 앙상블, 부스팅 (0) | 2023.10.18 |
[ML] Data EDA, Cleaning, Feature Extraction (Pandas) (0) | 2023.10.12 |