본문 바로가기
프로그래밍/데이터분석 실습 (Brightics studio)

DS인증 실기 문제풀이 오답노트 (D-1)

by 어느덧중반 2020. 8. 22.
반응형

통계중심 문제

#1. Antibiotic_70K_patients

- 이상치 구현하는 python 코드가 익숙치 않다!!!!!!!!!!!!!!

import pandas as pd
import numpy as np

data = pd.DataFrame(inputs[0])

def count_outlier(x):
	mean_x = np.mean(x)
    sd_x = np.std(x)
    
    under_three_sigma = mean_x - 3 * sd_x
    over_three_sigma = mean_x + 3 * sd_x
    
    count_3sigma = len(x[x < under_three_sigma]) + len(x[x > over_three_sigma])
    
    return count_3sigma
    
result = data.apply(lambda x: count_outlier(x)).to_frame(name='result').reset_index()

 

#2. enter_car_part1, enter_car_part2

- 전처리시 결측임에도 브라이틱스가 공란("")으로 인식하는 부분 : select * from #{DF(0)} where 변수명 <> '' 처리해서 제거해줄 것

- 아직도 헷깔리냐... 의수준보다 p-value가 으면 각하라!!!!!!!!!!!!!!!! 유피낮기!!

 

#3. California_housing

- Xgrp가 0인 데이터 이용하여~~~ : Filter로 Xgrp == 0 안해줌 (문제의 문구 하나하나 꼭 짚어볼 것)

- 연관성이 가장 낮은 변수를 제외한 : 가장 낮은 1개만 빼고 진행해야 하는데 3-1) 문제에서 상관계수 낮은 2개를 빼고 계산함 (문제를 꼼꼼히 읽어보자)

- 설명력 : R-squared!!!!!!!!

- 주성분분석(PCA) 구할 때 주성분 숫자 : Number of Components!!!!!!!!!!!!!!!!!!

- 주성분분석 구한 후에 고유값 : explained_variance!!!!!!!!!!!!!!!!!!!!

 

#4. birth_risk

- Target값(0 또는 1인 경우) 예측시 Target이 1일 확률 0.02 이상(= Target이 0일 확률 0.98)

 

전처리 중심 문제

#1. MSG_homeware_transaction

- 문자열 시간을 초 단위로 변환하기 : strftime('%s', 변수명)

- 문자열 시간을 시간 단위로 변환하기 : strftime('%s', 변수명) / 3600

- 위의 단위변환 후 cast(변수 as Double) 등을 통해 Double 형으로 변환시켜줄 것

- 문자열 시간을 요일 단위로 변환하기 : strftime('%w', 변수명) => 0:일요일 ~ 6:토요일

 

#2. NBA

- 동명이인 제거 후에 행이 확 낮아졌다고 당황말고 이전 테이블과 Join하는 것 잊지말자

 

#3. MSG_womens_clothing_review

- 정확도 : Accuracy!!!!!!! (영어 공부임!?)

반응형

댓글0