728x90

경진대회 7

[경진대회] 제 6회 대구광역시 빅데이터분석 경진대회 - 회고록

이 글은 발표까지 다한 상태로 10월달에 있을 결과 전 회고록이다. 발표자료인 ppt를 통해서 발표를 줌에서 하는데 10분 내외로 알려진 발표 시간이 10분임을 발표 직전에 정확히 알게되었다. 나는 연습을 할 때 12분 짜리 발표였다. 그래서 말을 더 빠르게, 필요없는 부분은 삭제를 하고 발표를 했다. 우리는 에너지 관련해서 프로젝트를 진행했고 데이터를 다루다 보니 엄청 섬세한 부분까지 도달하지 못했다.통계처리로 동네별, 1년별, 월별 등 데이터가 크게크게 있다보니 섬세하게 하루 사용량 등을 인지하기 못했다. 발표 후 질문으로 연관성이 많이 떨어진 느낌인 것과 너무 추상적이다라는 평을 받게 되었다. 아쉽지만 그래도 최대한으로 했기에 이보다 더 할 수는 있지만 돌아간다면 이만큼이 최대일 것 같다. 발표는 ..

경진대회 2024.09.14

[DACON] 새싹 해커톤 - 예선 회고록

파이널 프로젝트인 밀땅을 재사용할 목적으로 대회에 참가 및 제안서를 만들었다.  https://dacon.io/competitions/official/236293/codeshare/11310?page=1&dtype=random 꿈나무들을 위한 건강 관리 서비스 - H.O.T(Happy Our Tree 행복한 우리의 나무)새싹 해커톤 예선 (모집마감 7.12. 18:00)dacon.io 주제는 꿈나무들(결식 아동)을 위해 영양 관리를 도와주고 꿈나무 가맹점을 쉽게 찾고 메뉴를 통한 검색이 가능한 웹 서비스를 계획 했었다. 하지만 평가위원의 선택을 받지 못해 88등으로 50등 안에 들지 못해 탈락했다.구현 가능성을 최대한으로 생각하다 보니 가지고 있는 카드 안에서 활용했던 것과 신박한 아이디어가 아니였던 것..

경진대회 2024.07.31

[DACON] 새싹 해커톤 - 예선 준비

새싹 해커톤이란?IT 기술 분야에 관심있는 기획자, 디자이너, 개발자 청년들이 모여 서울의 미래를 바꿀 아이디어를 기획하고 서비스로 구현하는 해커톤입니다. 서울시 SW 교육 브랜드 청년취업사관학교(SeSAC)와 기획하고 운영합니다.- 예선 평가 기간 : 2024년 07월 22일 (월) 10:00 ~ 7월 26일 (금) 오전 10:00- 예선 결과 발표일 : 2024년 7월 26일 (금) 오전 10:00- 해커톤 본선 일정 : 2024년 8월 1일 (목) ~ 8월 2일 (금)[주제]생성형 AI를 활용한 약자와의 동행사회적 약자의 문제의 해결을 방점으로 하며, 생성형 AI의 활용은 관련만 있으면 활용한 것으로 간주됩니다. 위 대회를 참가하기로 마음을 먹었다. 주제를 선정하기 위해 고민을 하고 있지만 생성형..

경진대회 2024.07.12

[DACON] 데이콘 빅데이터 분석 경진대회 - 에너지 부문

https://dacon.io/competitions/official/236285/codeshare/11208?page=1&dtype=random 전기사용량의 감소를 목표로 맞춤형 복지 형성을 위한 분석에너지 부문dacon.io 팀 우왕좌왕으로 나갔다. 아이디어를 떠올리고 데이터를 찾는데만 일주일이 넘게 걸렸다. 하려고 하면 이미 해본 경우가 있고 아니면 데이터를 찾을 수 없어서 아이디어만 5번은 바꾼 것 같다. 전기사용량은 여러 요인에 걸쳐서 발생하는 것 같았다.쉽게 생각해보면 전자제품 갯수에 따라서 다를 것이고 집 크기에 따라서도 다를 것이다.  아이디어 부문에서 제출을 했지만 예선 통과시 본선에서 직접 데이터들을 분석해야하는데 얼마나 유의미한 결과를 내보일진 모르겠다. 만약 이 글을 본다면 들어가서..

경진대회 2024.07.09

[제주 특산물 가격 예측 AI 경진대회] 회고록

이번 대회에서는 말이 많았다. 성과를 내기 위해서 잘하는 사람들과 팀을 꾸렸지만 뒤숭숭한 분위기로 인해 집중적으로 하지 못했다. 하지만 이번 대회에서 AutoML에 대해서 공부를 했고 꽤 좋은 성과를 냈다 생각했었다. 대회는 시계열에 RMSE 평가로 진행되었다. 여태 배운건 boost밖에 없어서 시계열은 생소하다. 그래서 코드 공유가 된 Autogluon - TimeSeries 모델을 사용했다. boosting을 할 때는 800점대에 불과하던 것들이 Autogluon을 사용하니 666점까지 떨어져 순위권에 들어갔다. 내부 점수도 어느정도 비슷했기 때문에 overfitting이 되었다는걸 알지 못했다. 대회가 마감되고 Private가 오픈되니 대역변의 순위권 변동이 생겼다. Public -> Private..

경진대회 2023.11.23

[국민대 AI빅데이터 분석 경진대회] 회고록

부트캠프를 다니면서 타이타닉을 해보며 대회의 재미를 보았다. 이번에 처음 데이콘에서 대회를 나가 참가를 해보았다. 부트캠프 사람들이 아직 친하지 않아 직접 팀을 구성해 1팀 ~ 5팀을 만들어 대회를 참가하게 했다. 팀을 만들다보니 본인은 혼자 참가하게 되었다 :( 1주차 - Cosine Similarity를 처음 써보면서 익혀나갔다. 부스팅을 쓰는 것은 가지고 있는 data로 다른 사람들의 data에 대한 예측을 하는 것이라 생각했고 이는 같은 data이니 필요 없다고 생각했다. 이때부터 늪에 빠지기 시작했다. 이렇게 cosine 유사도 뿐만 아니라 negative sampling과 score를 사용하는 모델 등 다양하게 시도를 해봤다. 하지만 기본 베이스 점수 자체가 높아서 그런지 0.159를 넘기기가..

경진대회 2023.11.13

[국민대학교 AI빅데이터 분석 경진대회] cosine similarity

DACON - 제1회 국민대학교 AI빅데이터 분석 경진대회 (2023.10.16~2023.11.13 09:59 [Baseline] 사용자 기반 협업 필터링(User-based Collaborative Filtering) 설명 첫번째 apply_train_df를 선언해 apply_train.py에 있는 값들을 가져오면 57946개의 채용 지원이 있다는 것을 알 수 있다. apply_train_df를 'resume_seq(지원자 번호)', 'recruitment_seq(채용 번호)' groupby해 2X2 Matrix로 표현한다. (.unstack(fill_value=0) ==> 값이 없으면 0으로 입력) 총 8482명의 지원자가 있고 채용공고는 6695개 있다는 것을 확인 할 수 있다. 우선 지원 횟수가 ..

경진대회 2023.10.22
728x90