728x90

Bootcamp 55

[AI Vision] Mini Project

29~33일차 동안에는 Mini Project를 진행했다. 사람들은 1개씩 선택 했지만 나는 3개를 동시에 진행했다. 1. 국민대 경진대회 국민대 경진대회는 회고록에서 정리했다. https://hyul-code.tistory.com/38 [국민대 AI빅데이터 분석 경진대회] 회고록 부트캠프를 다니면서 타이타닉을 해보며 대회의 재미를 보았다. 이번에 처음 데이콘에서 대회를 나가 참가를 해보았다. 부트캠프 사람들이 아직 친하지 않아 직접 팀을 구성해 1팀 ~ 5팀을 만들 hyul-code.tistory.com 2. 제주도 특산물 가격 예측 경진대회 - 진행중 (11.17 기준) 3. AI Vision 경진대회 리뷰(2023 Samsung AI Challenge : Camera-Invariant Domain ..

Bootcamp 2023.11.17

[SQL] ERD, MySQL, Docker, DBeaver 설치

34일차, 35일차에는 SQL에 대해서 공부할 예정이다. MySQL을 사용하기 위해 Docker를 활용하는데 0. ERD https://hudi.blog/entity-relation-diagram/ ERD (Entity-Relation Diagram) 표기법 1. 데이터베이스 설계 단계 데이터베이스 설계는 개념적 모델링 → 논리적 모델링 → 물리적 모델링 세 단계로 진행된다. 개념적 모델링은 Entity 를 도출하고 ERD를 작성하는 단계이다. 논리적 모 hudi.blog 여기를 학습한 후 시작한다. 1. 우선 사용할 수 있는 환경을 만들기위해 powershell에 linux명령어를 쓸 수 있게 해야한다. wsl --install WSL 설치 wsl --set-default-version 2 WSL 버전..

Bootcamp/Web 2023.11.17

[타이타닉] 타이타닉 경진대회 完

지난 일주일동안 타이타닉 경진대회가 진행되었다. pandas를 처음 배우면서 Data를 다뤄봤는데 할 수록 경험을 많이 쌓아야 감이 잡힐거 같았다. Data를 다루는 순서를 확실히 잡고 가는게 좋을거 같다. 1) EDA 2) Data 전처리 - cleaning - encoding - scaling 3) K-Fold 4) Model train 5) Prediction test data 이러한 구조를 통해서 데이터들을 다루고 model에 따라 data 전처리를 어떻게 할지, feature들을 어떤 것을 쓸지 선택해야한다. 아직 EDA를 해서 뭘 선택 해야하는지 판단 하는 부분이 부족하다는 것을 알기에 다른 경진대회의 사람들을 따라하며 익혀야겠다.

Bootcamp/AI 2023.10.20

[ML] 교차 검증, HPO, XAI

1. 교차 검증 우리가 한걸 보면 train data와 test data를 분리한 뒤 고정된 상태로 진행되었다. 교차 검증은 어제 진행된 train data에서 답을 아는 train, test data로 다시 분리해 학습하는 것을 진행했다. 하지만 1번의 분할로 또다시 고정된 것이라 overfit의 위험이 높다. 여기서 떠오른 방법이 교차 검증이다. 1) 교차 검증(Cross validation) train data 와 test data를 나누는 것을 여러번 해서 parameters을 찾아 제일 좋은 결과를 내는 것을 목표로 한다. 이렇게 해서 얻는 장점은 모든 데이터셋을 훈련에 활용할 수 있고 정확도를 향상시킨다. 또한 데이터 부족으로 인한 underfitting을 방지할 수 있다. 모든 데이터 셋을 ..

Bootcamp/AI 2023.10.19

[ML] 앙상블, 부스팅

현재 train을 할 때, train data와 정답을 모르는 test data만 가지고 있다. 제출횟수가 제한되어 있는 경우 정답률 확인하기 위해선 train data를 나눌 필요가 있다. train data를 train data와 정답을 아는 test data로 나누어 해결한다. 하지만 이때 train data가 많이 줄어 들기 때문에 train data를 random으로 여러개 병렬식으로 하면 될거 같다. Bagging = data 복원 추출로 train data를 나눠(data set = random) Decision Tree model들을 여러개 넣어 최종 모델을 넣음 Random Forest = Decision tree를 여러개 사용, n_estimator => Decision tree 몇개 ..

Bootcamp/AI 2023.10.18

[ML] Data EDA, Cleaning, Feature Extraction (Pandas)

1. Data EDA는 간단히 말하면 Data 유형을 정리하고 서로의 연관성을 확인 하는 것이다. 분석, 결과 도출 하는 과정에서 지속적으로 해당 Data에 대한 탐색과 이해를 기본적으로 가져야한다. 여기서 1) 상관계수 2) 왜도, 첨도 3) 이상치를 조사하고 수치형, 범주형 data의 통계적 분석, 첨도 왜도 이상치 상관관계 분석 해야한다. df_number = df.select_dtypes(include=np.number) df_number.info() # 수치형 data 분석 df_number.describe() # 통계적 분석 2. Cleaning 데이터를 올바르고 효율적으로 사용하기 위해서 좋은데이터를 사용해야하는데 좋은 데이터는 완결성, 유일성, 통일성을 특징으로 갖는다. 결측치가 있는 경우..

Bootcamp/AI 2023.10.12

[Pandas] Pandas 심화

7일차에서 numpy와 pandas 기초를 했다. 오늘은 Pandas 심화 과정을 가져왔다. import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt import matplotlib.font_manager as fm df = sns.load_dataset('titanic') print(df.isnull()) # null 값 계산 print(df.isnull().sum()) # null을 각 행마다 수 print(df.info()) # column 당 각각의 수 print(df.shape[0]) # 요소 수 print((df.isnull().sum() / (len(df)) * 100).round(2..

[Pandas] numpy & pandas 기초 Command 정리

numpy command ndarray.ndim # 어레이의 차원 ndarray.shape # 어레이 크기를 나타내는 정수 튜플 행수, 열수 ndarray.size # 요소의 총 개수 shape의 곱과 같음 ndarray.dtype # 데이터 타입 확인 예제 1 lst = [1,4,5,6] vector = np.array(lst) vector.shape vector.dtype 예제 2 arr = np.arange(10) np.arange(5,10) np.full((2,3),5) # 모든 원소가 5인 2x3행렬 np.eye(2) # 단위 행렬 예제 3 차원 추가 arr = np.arange(20) arr.base arr.shape arr[:, np.newaxis].shape arr1 = np.expand_..

728x90