728x90

Bootcamp/AI 5

[타이타닉] 타이타닉 경진대회 完

지난 일주일동안 타이타닉 경진대회가 진행되었다. pandas를 처음 배우면서 Data를 다뤄봤는데 할 수록 경험을 많이 쌓아야 감이 잡힐거 같았다. Data를 다루는 순서를 확실히 잡고 가는게 좋을거 같다. 1) EDA 2) Data 전처리 - cleaning - encoding - scaling 3) K-Fold 4) Model train 5) Prediction test data 이러한 구조를 통해서 데이터들을 다루고 model에 따라 data 전처리를 어떻게 할지, feature들을 어떤 것을 쓸지 선택해야한다. 아직 EDA를 해서 뭘 선택 해야하는지 판단 하는 부분이 부족하다는 것을 알기에 다른 경진대회의 사람들을 따라하며 익혀야겠다.

Bootcamp/AI 2023.10.20

[ML] 교차 검증, HPO, XAI

1. 교차 검증 우리가 한걸 보면 train data와 test data를 분리한 뒤 고정된 상태로 진행되었다. 교차 검증은 어제 진행된 train data에서 답을 아는 train, test data로 다시 분리해 학습하는 것을 진행했다. 하지만 1번의 분할로 또다시 고정된 것이라 overfit의 위험이 높다. 여기서 떠오른 방법이 교차 검증이다. 1) 교차 검증(Cross validation) train data 와 test data를 나누는 것을 여러번 해서 parameters을 찾아 제일 좋은 결과를 내는 것을 목표로 한다. 이렇게 해서 얻는 장점은 모든 데이터셋을 훈련에 활용할 수 있고 정확도를 향상시킨다. 또한 데이터 부족으로 인한 underfitting을 방지할 수 있다. 모든 데이터 셋을 ..

Bootcamp/AI 2023.10.19

[ML] 앙상블, 부스팅

현재 train을 할 때, train data와 정답을 모르는 test data만 가지고 있다. 제출횟수가 제한되어 있는 경우 정답률 확인하기 위해선 train data를 나눌 필요가 있다. train data를 train data와 정답을 아는 test data로 나누어 해결한다. 하지만 이때 train data가 많이 줄어 들기 때문에 train data를 random으로 여러개 병렬식으로 하면 될거 같다. Bagging = data 복원 추출로 train data를 나눠(data set = random) Decision Tree model들을 여러개 넣어 최종 모델을 넣음 Random Forest = Decision tree를 여러개 사용, n_estimator => Decision tree 몇개 ..

Bootcamp/AI 2023.10.18

[ML] Data EDA, Cleaning, Feature Extraction (Pandas)

1. Data EDA는 간단히 말하면 Data 유형을 정리하고 서로의 연관성을 확인 하는 것이다. 분석, 결과 도출 하는 과정에서 지속적으로 해당 Data에 대한 탐색과 이해를 기본적으로 가져야한다. 여기서 1) 상관계수 2) 왜도, 첨도 3) 이상치를 조사하고 수치형, 범주형 data의 통계적 분석, 첨도 왜도 이상치 상관관계 분석 해야한다. df_number = df.select_dtypes(include=np.number) df_number.info() # 수치형 data 분석 df_number.describe() # 통계적 분석 2. Cleaning 데이터를 올바르고 효율적으로 사용하기 위해서 좋은데이터를 사용해야하는데 좋은 데이터는 완결성, 유일성, 통일성을 특징으로 갖는다. 결측치가 있는 경우..

Bootcamp/AI 2023.10.12
728x90