728x90

분류 전체보기 109

[DACON] 데이콘 빅데이터 분석 경진대회 - 에너지 부문

https://dacon.io/competitions/official/236285/codeshare/11208?page=1&dtype=random 전기사용량의 감소를 목표로 맞춤형 복지 형성을 위한 분석에너지 부문dacon.io 팀 우왕좌왕으로 나갔다. 아이디어를 떠올리고 데이터를 찾는데만 일주일이 넘게 걸렸다. 하려고 하면 이미 해본 경우가 있고 아니면 데이터를 찾을 수 없어서 아이디어만 5번은 바꾼 것 같다. 전기사용량은 여러 요인에 걸쳐서 발생하는 것 같았다.쉽게 생각해보면 전자제품 갯수에 따라서 다를 것이고 집 크기에 따라서도 다를 것이다.  아이디어 부문에서 제출을 했지만 예선 통과시 본선에서 직접 데이터들을 분석해야하는데 얼마나 유의미한 결과를 내보일진 모르겠다. 만약 이 글을 본다면 들어가서..

경진대회 2024.07.09

[빅분기] 제 3유형 연습

제 3유형 같은 경우 제일 많이 나온 것은 카이제곱, pvalue, t분포 등 통계량에 대한 것이다.또한 회귀 문제로 회귀계수, pvalue값, 오즈비, 잔차 이탈  등을 구한다.  - 샤피로 검정을 통해 표본이 정규 분포에서 추출 된 것인지 확인 유의 수준이 5%일 때 pvalue값을 확인from scipy.stats import shapiroprint(shapiro(df)) - 카이제곱 독립성 검정 : 유의 수준이 5%일 때 pvalue값을 확인from scipy.stats import chi2_contingency# 데이터 배열 생성 (빈도로 변환)data = np.array([[do_male, dont_do_male], [do_female, dont_do_female]])# 카이제곱 검정 수행ch..

[빅분기] 제 1유형 연습

빅데이터분석기사 같은 경우 1유형에는 여러 유형의 문제가 있다. 중요도 순서 상관없이 생각 나는데로 정리 해보았다. - 데이터의 count, mean, std, min, 1/4, 2/4, 3/4, max 값이 출력되는 것df.describe() - IQRq1 = df['target'].quantile(1/4)q3 = df['target'].quantile(3/4)iqr = q3 - q1min = q1 - 1.5*iqrmax = q3 + 1.5*iqrprint(len(df[(df['target']>min) | (df['target'] - zscorefrom scipy.stats import zscoresub = '목표 column'result = zscore(df[sub].dropna()).max() - ..

[빅분기] 제 2유형 연습

제 2유형은 모델을 직접 train하고 결과를 제출해야한다.타이타닉으로 연습했고 필요로 할 때 수정할 수 있게 했다.RandomForest 같은 경우 Onehotencoding을 하지 않아도 성능이 나오기 때문에 모델은 RandomForest로 했고Encoding 같은 경우 Onehot을 할 필요가 없으니 LabelEncoder를 사용했다.  Classifier가 나오면 RandomForestClassifierregressor가 나오면 RandomForestRegressor로 바꿀 전략을 취했고 import sklearnhelp(sklearn)을 활용했다.import pandas as pdimport numpy as npimport seaborn as snsfrom sklearn.ensemble impo..

[DP] DP에 대해서 알아보자

DP는 Dynamic Programming(동적 계획법)으로 복잡한 문제를 더 작은 하위 문제로 만들어 계산해 위로 올라가는 방식이다.  개념은 재귀와 비슷하지만 재귀는 하향식, DP는 상향식이다. 즉 중복되는 계산을 저장하면서 올라가다보니 한번의 계산 후에 결과들을 저장하고 불러오는 형식이다. 또 최적의 값을 찾을 때도 사용한다.  문제를 풀기 위해서 메모와 점화식이 중요하다. 대표적인 문제는 피보나치 수열, 배낭 문제, 최단 경로, 최장 증가 부분, 문자열 편집 거리 등이 있다. DP의 장점은 중복 계산을 피할 수 있고 시간복잡도가 효율적이게 된다.하지만 단점으론 메모리 사용량이 상대적으로 크다. https://www.acmicpc.net/problem/9461  #include #include us..

Algorithm 2024.06.03

[AI] 자연어처리

1) 자연어란? 우리가 일상 생활에서 사용하는 언어2) 컴퓨터가 자연어의 의미를 분석하여 처리하는 것을 자연어 처리(Natural Language Processing)라 한다.3) 자연어 처리는 음성 인식을 바탕으로 번역, 내용 요약, 감성분석, 텍스트 분류 작업 그리고 챗봇으로 사용되는 기술임4) 최근 딥러닝을 통해 성과를 얻었으며 AI 분야에서 실질적으로 성과를 보이는 분야이다.  활용 기술- Anaconda (Numpy, Pandas, scikit-learn, matplotlib, seaborn, nltk)- Tensorflow : 구글이 2015년에 공개한 머신 러닝 오픈소스 라이브러리, 머신 러닝과 딥 러닝을 직관적이고 손쉽게 할 수 있도록 설계 - keras : 딥 러닝 프레임워크인 텐서플로우..

AI 2024.05.29

[AI] Computer Vision

1960년대 - 1980년대: 기초적인 패턴 인식 및 특징 추출 이 시기에는 주로 단순한 패턴 인식과 특징 추출 알고리즘들이 사용되었습니다. 히스토그램 기반의 특징, 에지(edge) 검출, 템플릿 매칭 등의 방법이 주로 사용되었습니다. 1990년대 - 2000년대: 통계적 및 기계학습 기반의 방법 이 시기에는 통계적 기법과 기계학습이 컴퓨터 비전에 도입되었습니다. 지역 이진 패턴(LBP), 허프 변환(Hough transform), 특징 기술자(Feature Descriptors) 등이 개발되었습니다. 지지 벡터 머신(Support Vector Machine, SVM), 의사결정 나무(Decision Trees) 등의 기계학습 알고리즘이 널리 사용되었습니다. 1960년대부터 1980년대 초반까지의 컴퓨터..

AI 2024.05.29

[SW정책연구] SW산업 연간보고서 1부 정리

초록 - SW의 가치는 시대에 따라 지속적으로 변화하고 있으며, 시대 상황에 상응하는 역할 및 가치에 대 한 재해석이 지속적으로 이루어지고 있다. 기존의 SW는 컴퓨터와 소통하며 아이디어를 실현하고 다양한 문제를 해결하는 도구로 이해되어 왔으나, 현재는 4차산업혁명을 촉발하는 인지, 판단 및 예측의 핵심기술로서, 사회·경제 전반의 프로세스와 의사결정을 자동화, 지능화, 최적화, 유연화하 는 핵심 요소로 해석되는 추세다.SW는 HW를 제어하여 그 기능을 원활하게 만들어주는 역할을 넘어, 창의력과 상상력을 발휘하여 새로운 서비스를 만들어 낼 수 있다. 또한 제품을 고도화시키며 서비스 형태를 혁신시킴으로써 기 존 산업의 패러다임을 변화시키는데 크게 일조하고 있다. 예컨대 기존 사무환경과 생산체계에 SW 들어가..

면접준비 2024.05.03

[IBK 기업은행] 디지털 필기 회고

처음 NCS 시험을 봤다. IBK 기업은행 필기 였고 디지털 분야였다. 직업기초 40문제 직무수행(데이터베이스, 빅데이터, AI, 블록체인, 시사) 35문제였는데패인의 원인은 속도였다.직업기초에서 10문제에 30분씩 걸렸으며 그나마 다행인 것은 직무수행부터 풀어 30분 이내로 해결했다는 것이다.25번 문제를 풀었을 때 10분이 남아서 문제를 읽지 않고 찾아내는 방식으로 해결해 33번까지는 꽤 정답이 있을거라 예측했지만 많이 틀린 모양이다. 직업기초 준비를 하면서 문제들을 풀었지만 시간을 정해서 푼 기억이 없었다.애초에 문제푸는 속도가 부족할거라 생각을 전혀 안했던 것이 이유이다. 직무수행 35문제 중 절반은 틀린 모양이다. 이때 ADsP, SQLD 문제집으로 준비 했으나 결과적으론 빅데이터 분석기사 문제..

면접준비 2024.05.03

[Docker] Airflow 감싸기 (진행중)

Airflow를 구축하는데 성공했다.https://hyul-code.tistory.com/114 [Airflow] naver 리뷰 airflow 하기(버전만)Final Project 때 했던 크롤링을 바탕으로 Airflow를 입혀 Data 축적을 자동화 해보는걸 목표로 한다. Ubuntu 환경과 Window 환경을 왔다갔다 할 예정이다. // Ubuntu // mysql 상태를 확인한다 sudo systemctl status myhyul-code.tistory.com 이제 배포를 할 수 있게 도커를 설치하고자 한다. sudo apt updatedocker run -it -p 8080:8080 -v /home/hyul/airflow:/opt/airflow/dags/ --entrypoint=/bin/bash..

Bootcamp/Docker 2024.03.29
728x90