통계중심 문제
#1. Antibiotic_70K_patients
- 이상치 구현하는 python 코드가 익숙치 않다!!!!!!!!!!!!!!
import pandas as pd
import numpy as np
data = pd.DataFrame(inputs[0])
def count_outlier(x):
mean_x = np.mean(x)
sd_x = np.std(x)
under_three_sigma = mean_x - 3 * sd_x
over_three_sigma = mean_x + 3 * sd_x
count_3sigma = len(x[x < under_three_sigma]) + len(x[x > over_three_sigma])
return count_3sigma
result = data.apply(lambda x: count_outlier(x)).to_frame(name='result').reset_index()
#2. enter_car_part1, enter_car_part2
- 전처리시 결측임에도 브라이틱스가 공란("")으로 인식하는 부분 : select * from #{DF(0)} where 변수명 <> '' 처리해서 제거해줄 것
- 아직도 헷깔리냐... 유의수준보다 p-value가 낮으면 기각하라!!!!!!!!!!!!!!!! 유피낮기!!
#3. California_housing
- Xgrp가 0인 데이터 이용하여~~~ : Filter로 Xgrp == 0 안해줌 (문제의 문구 하나하나 꼭 짚어볼 것)
- 연관성이 가장 낮은 변수를 제외한 : 가장 낮은 1개만 빼고 진행해야 하는데 3-1) 문제에서 상관계수 낮은 2개를 빼고 계산함 (문제를 꼼꼼히 읽어보자)
- 설명력 : R-squared!!!!!!!!
- 주성분분석(PCA) 구할 때 주성분 숫자 : Number of Components!!!!!!!!!!!!!!!!!!
- 주성분분석 구한 후에 고유값 : explained_variance!!!!!!!!!!!!!!!!!!!!
#4. birth_risk
- Target값(0 또는 1인 경우) 예측시 Target이 1일 확률 0.02 이상(= Target이 0일 확률 0.98)
전처리 중심 문제
#1. MSG_homeware_transaction
- 문자열 시간을 초 단위로 변환하기 : strftime('%s', 변수명)
- 문자열 시간을 시간 단위로 변환하기 : strftime('%s', 변수명) / 3600
- 위의 단위변환 후 cast(변수 as Double) 등을 통해 Double 형으로 변환시켜줄 것
- 문자열 시간을 요일 단위로 변환하기 : strftime('%w', 변수명) => 0:일요일 ~ 6:토요일
#2. NBA
- 동명이인 제거 후에 행이 확 낮아졌다고 당황말고 이전 테이블과 Join하는 것 잊지말자
#3. MSG_womens_clothing_review
- 정확도 : Accuracy!!!!!!! (영어 공부임!?)
댓글