728x90

자격증 5

[빅분기] 제 3유형 연습

제 3유형 같은 경우 제일 많이 나온 것은 카이제곱, pvalue, t분포 등 통계량에 대한 것이다.또한 회귀 문제로 회귀계수, pvalue값, 오즈비, 잔차 이탈  등을 구한다.  - 샤피로 검정을 통해 표본이 정규 분포에서 추출 된 것인지 확인 유의 수준이 5%일 때 pvalue값을 확인from scipy.stats import shapiroprint(shapiro(df)) - 카이제곱 독립성 검정 : 유의 수준이 5%일 때 pvalue값을 확인from scipy.stats import chi2_contingency# 데이터 배열 생성 (빈도로 변환)data = np.array([[do_male, dont_do_male], [do_female, dont_do_female]])# 카이제곱 검정 수행ch..

[빅분기] 제 1유형 연습

빅데이터분석기사 같은 경우 1유형에는 여러 유형의 문제가 있다. 중요도 순서 상관없이 생각 나는데로 정리 해보았다. - 데이터의 count, mean, std, min, 1/4, 2/4, 3/4, max 값이 출력되는 것df.describe() - IQRq1 = df['target'].quantile(1/4)q3 = df['target'].quantile(3/4)iqr = q3 - q1min = q1 - 1.5*iqrmax = q3 + 1.5*iqrprint(len(df[(df['target']>min) | (df['target'] - zscorefrom scipy.stats import zscoresub = '목표 column'result = zscore(df[sub].dropna()).max() - ..

[빅분기] 제 2유형 연습

제 2유형은 모델을 직접 train하고 결과를 제출해야한다.타이타닉으로 연습했고 필요로 할 때 수정할 수 있게 했다.RandomForest 같은 경우 Onehotencoding을 하지 않아도 성능이 나오기 때문에 모델은 RandomForest로 했고Encoding 같은 경우 Onehot을 할 필요가 없으니 LabelEncoder를 사용했다.  Classifier가 나오면 RandomForestClassifierregressor가 나오면 RandomForestRegressor로 바꿀 전략을 취했고 import sklearnhelp(sklearn)을 활용했다.import pandas as pdimport numpy as npimport seaborn as snsfrom sklearn.ensemble impo..

(pandas) csv 파일 불러오기

csv파일들이 여러개 있는 경우 하나하나 불러오기에 너무 많은 경우에 for문을 활용해서 불러올 수 있다. import os import pandas as pd # CSV 파일이 있는 폴더 경로 folder_path = '/home/myname/projectname/data' # 폴더 내 모든 파일 목록 가져오기 file_list = os.listdir(folder_path) # CSV 파일만 필터링 (다른 파일들도 같이 있을 때 csv만 받기 위해서 사용) csv_files = [file for file in file_list if file.endswith('.csv')] total = [] # 각 CSV 파일을 순회하면서 읽기 for csv_file in csv_files: file_path = os..

728x90