728x90

전체 글 109

[국민대 AI빅데이터 분석 경진대회] 회고록

부트캠프를 다니면서 타이타닉을 해보며 대회의 재미를 보았다. 이번에 처음 데이콘에서 대회를 나가 참가를 해보았다. 부트캠프 사람들이 아직 친하지 않아 직접 팀을 구성해 1팀 ~ 5팀을 만들어 대회를 참가하게 했다. 팀을 만들다보니 본인은 혼자 참가하게 되었다 :( 1주차 - Cosine Similarity를 처음 써보면서 익혀나갔다. 부스팅을 쓰는 것은 가지고 있는 data로 다른 사람들의 data에 대한 예측을 하는 것이라 생각했고 이는 같은 data이니 필요 없다고 생각했다. 이때부터 늪에 빠지기 시작했다. 이렇게 cosine 유사도 뿐만 아니라 negative sampling과 score를 사용하는 모델 등 다양하게 시도를 해봤다. 하지만 기본 베이스 점수 자체가 높아서 그런지 0.159를 넘기기가..

경진대회 2023.11.13

Inpainting 공부

https://velog.io/@lighthouse97/%EA%B8%B0%EC%9A%B8%EA%B8%B0-%EC%86%8C%EC%8B%A4-%EB%AC%B8%EC%A0%9C%EC%99%80-ReLU-%ED%95%A8%EC%88%98 기울기 소실 문제와 ReLU 함수 참고기울기 소실 문제(Vanishing Gradient problem)는 역전파(Backpropagation) 알고리즘에서 처음 입력층(input layer)으로 진행할수록 기울기가 점차적으로 작아지다가 나중에는 거의 기울기의 변화가 없어지 velog.io 기울기 소실 문제와 ReLU함 https://ambitious-posong.tistory.com/132 [논문리뷰] Transformer + GAN에 관한 논문 리뷰 논문 두개 대충 봐야지..

Github 2023.10.23

[국민대학교 AI빅데이터 분석 경진대회] cosine similarity

DACON - 제1회 국민대학교 AI빅데이터 분석 경진대회 (2023.10.16~2023.11.13 09:59 [Baseline] 사용자 기반 협업 필터링(User-based Collaborative Filtering) 설명 첫번째 apply_train_df를 선언해 apply_train.py에 있는 값들을 가져오면 57946개의 채용 지원이 있다는 것을 알 수 있다. apply_train_df를 'resume_seq(지원자 번호)', 'recruitment_seq(채용 번호)' groupby해 2X2 Matrix로 표현한다. (.unstack(fill_value=0) ==> 값이 없으면 0으로 입력) 총 8482명의 지원자가 있고 채용공고는 6695개 있다는 것을 확인 할 수 있다. 우선 지원 횟수가 ..

경진대회 2023.10.22

[타이타닉] 타이타닉 경진대회 完

지난 일주일동안 타이타닉 경진대회가 진행되었다. pandas를 처음 배우면서 Data를 다뤄봤는데 할 수록 경험을 많이 쌓아야 감이 잡힐거 같았다. Data를 다루는 순서를 확실히 잡고 가는게 좋을거 같다. 1) EDA 2) Data 전처리 - cleaning - encoding - scaling 3) K-Fold 4) Model train 5) Prediction test data 이러한 구조를 통해서 데이터들을 다루고 model에 따라 data 전처리를 어떻게 할지, feature들을 어떤 것을 쓸지 선택해야한다. 아직 EDA를 해서 뭘 선택 해야하는지 판단 하는 부분이 부족하다는 것을 알기에 다른 경진대회의 사람들을 따라하며 익혀야겠다.

Bootcamp/AI 2023.10.20

[ML] 교차 검증, HPO, XAI

1. 교차 검증 우리가 한걸 보면 train data와 test data를 분리한 뒤 고정된 상태로 진행되었다. 교차 검증은 어제 진행된 train data에서 답을 아는 train, test data로 다시 분리해 학습하는 것을 진행했다. 하지만 1번의 분할로 또다시 고정된 것이라 overfit의 위험이 높다. 여기서 떠오른 방법이 교차 검증이다. 1) 교차 검증(Cross validation) train data 와 test data를 나누는 것을 여러번 해서 parameters을 찾아 제일 좋은 결과를 내는 것을 목표로 한다. 이렇게 해서 얻는 장점은 모든 데이터셋을 훈련에 활용할 수 있고 정확도를 향상시킨다. 또한 데이터 부족으로 인한 underfitting을 방지할 수 있다. 모든 데이터 셋을 ..

Bootcamp/AI 2023.10.19

[ML] 앙상블, 부스팅

현재 train을 할 때, train data와 정답을 모르는 test data만 가지고 있다. 제출횟수가 제한되어 있는 경우 정답률 확인하기 위해선 train data를 나눌 필요가 있다. train data를 train data와 정답을 아는 test data로 나누어 해결한다. 하지만 이때 train data가 많이 줄어 들기 때문에 train data를 random으로 여러개 병렬식으로 하면 될거 같다. Bagging = data 복원 추출로 train data를 나눠(data set = random) Decision Tree model들을 여러개 넣어 최종 모델을 넣음 Random Forest = Decision tree를 여러개 사용, n_estimator => Decision tree 몇개 ..

Bootcamp/AI 2023.10.18

[ML] Data EDA, Cleaning, Feature Extraction (Pandas)

1. Data EDA는 간단히 말하면 Data 유형을 정리하고 서로의 연관성을 확인 하는 것이다. 분석, 결과 도출 하는 과정에서 지속적으로 해당 Data에 대한 탐색과 이해를 기본적으로 가져야한다. 여기서 1) 상관계수 2) 왜도, 첨도 3) 이상치를 조사하고 수치형, 범주형 data의 통계적 분석, 첨도 왜도 이상치 상관관계 분석 해야한다. df_number = df.select_dtypes(include=np.number) df_number.info() # 수치형 data 분석 df_number.describe() # 통계적 분석 2. Cleaning 데이터를 올바르고 효율적으로 사용하기 위해서 좋은데이터를 사용해야하는데 좋은 데이터는 완결성, 유일성, 통일성을 특징으로 갖는다. 결측치가 있는 경우..

Bootcamp/AI 2023.10.12

[Pandas] Pandas 심화

7일차에서 numpy와 pandas 기초를 했다. 오늘은 Pandas 심화 과정을 가져왔다. import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt import matplotlib.font_manager as fm df = sns.load_dataset('titanic') print(df.isnull()) # null 값 계산 print(df.isnull().sum()) # null을 각 행마다 수 print(df.info()) # column 당 각각의 수 print(df.shape[0]) # 요소 수 print((df.isnull().sum() / (len(df)) * 100).round(2..

[Pandas] numpy & pandas 기초 Command 정리

numpy command ndarray.ndim # 어레이의 차원 ndarray.shape # 어레이 크기를 나타내는 정수 튜플 행수, 열수 ndarray.size # 요소의 총 개수 shape의 곱과 같음 ndarray.dtype # 데이터 타입 확인 예제 1 lst = [1,4,5,6] vector = np.array(lst) vector.shape vector.dtype 예제 2 arr = np.arange(10) np.arange(5,10) np.full((2,3),5) # 모든 원소가 5인 2x3행렬 np.eye(2) # 단위 행렬 예제 3 차원 추가 arr = np.arange(20) arr.base arr.shape arr[:, np.newaxis].shape arr1 = np.expand_..

728x90