이번 대회에서는 말이 많았다.
성과를 내기 위해서 잘하는 사람들과 팀을 꾸렸지만 뒤숭숭한 분위기로 인해 집중적으로 하지 못했다.
하지만 이번 대회에서 AutoML에 대해서 공부를 했고 꽤 좋은 성과를 냈다 생각했었다.
대회는 시계열에 RMSE 평가로 진행되었다. 여태 배운건 boost밖에 없어서 시계열은 생소하다.
그래서 코드 공유가 된 Autogluon - TimeSeries 모델을 사용했다.
boosting을 할 때는 800점대에 불과하던 것들이 Autogluon을 사용하니 666점까지 떨어져 순위권에 들어갔다.
내부 점수도 어느정도 비슷했기 때문에 overfitting이 되었다는걸 알지 못했다.
대회가 마감되고 Private가 오픈되니 대역변의 순위권 변동이 생겼다.
Public -> Private
11 -> 1
88 -> 2
327 -> 3
5 -> 4
283 -> 5
16 -> 6
303 -> 7
public에서 1등이였던 사람이 200등대까지 내려가고 327등이였던 사람이 3등이 되었다.
14일 데이터가 public이였고 그후 14일이 private였는데 이렇게까지 차이가 날 줄 몰랐고
autogluon을 쓴 사람들은 다 100등 이후가 되었다.
순위권 사람들이 쓴 전략을 보면 회사마다, 지역마다, 품목마다, 모델을 다 다르게 써보고 supply와 price가 연관성이 높아 supply를 버렸다.
연관성이 있는것은 둘중 하나만 써야한다는걸 늘 인지하고 해야하는데 사용해야하는 columns이 뭔지 너무 주관적으로 쓰는게 많은거 같다. 그 판단을 더욱 확실하게 해야한다.
결국 처음으로 autogluon을 써보고 public 85등, private 215등으로 마감되었다.
overfit이 났다고 판단되고 다른 사람들처럼 boost모델을 준비해 놓고 public 점수에 연연해 처음 쓰는 autogluon을 너무 활용한거 같았다.
현재
1. DecisionTree
2. XGBoost
3. Light GBM
4. catboost
5. randomforest
6. autogluon TimeSeries
7. autogluon TabularDataset
이렇게 활용해보았다.
'경진대회' 카테고리의 다른 글
[DACON] 새싹 해커톤 - 예선 회고록 (0) | 2024.07.31 |
---|---|
[DACON] 새싹 해커톤 - 예선 준비 (0) | 2024.07.12 |
[DACON] 데이콘 빅데이터 분석 경진대회 - 에너지 부문 (0) | 2024.07.09 |
[국민대 AI빅데이터 분석 경진대회] 회고록 (1) | 2023.11.13 |
[국민대학교 AI빅데이터 분석 경진대회] cosine similarity (0) | 2023.10.22 |