본문 바로가기
자격증/ADsP

ADsP 내용 정리 (4과목. 데이터 분석 - 키워드별 정리, 18회기출문제분석1)

by 어느덧중반 2021. 7. 8.
반응형

1. 회귀모형의 변수선택법 : 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석해 가장 적합한 모형 선택

  • 전진선택법 : 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
  • 후진제거법 : 독립변수 후보 모두를 포함한 모형에서 가장 적은 영향을 주는 변수부터 하나씩 제거
  • 단계별방법 : 전진선택법에 의해 변수를 추가하며 새롭게 추가된 변수를 인해 기존 변수가 그 중요도가 약화되면
                     해당변수를 제거하는 등 단계별로 추가 또는 삭제되는 변수를 검토해 더 이상 없을 때 중단

2. R명령어

  • Im(종속변수~설명변수. 데이터세트) : 사용할 분석방법은 회귀분석인 것을 인지시켜 줌
  • Direction="변수선택방법" : 선택 가능한 옵션은 forward, backward, both가 있음
  • scope=list(lower=~1, upper~설명변수) : scope는 분석할 때 고려할 변수의 범위를 정함. 변수선택과정에서
                                                        설정할 수 잇는 가장 큰 모형 혹은 가장 작은 모형을 설정

3. 계층적 군집

  • 거리 : 군집분석에서는 관측 데이터간 유사성이나 근접성을 측정해 어느 군집으로 묶을 수 있는지 판단해야 함
  • 계층적 군집 : 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법
    • 수학적 거리 : 유클리드 거리, 맨하튼 거리, 민코우스키 거리
    • 통계적 거리 : 표준화 거리, 마할라노비스 거리
      • 표준화 거리 : 변수의 측정단위를 표준화한 거리
      • 마할라노비스 거리 : 변수의 표준화와 함께 변수 간 상관성을 동시에 고려한 통계적 거리

4. 상관 분석 : 두 변수간 상관관계를 상관계수 이용하여 확인하는 방법

 

5. 회귀분석 : 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법

  • 회귀분석의 종류 : 단순선형회귀분석(독립변수가 하나), 다중선형회귀분석(독립변수가 둘 이상)
  • 선형회귀분석의 가정
    • 선형성 : 입력변수와 출력변수의 관계가 선형관계가 있음
    • 독립성 : 잔차와 독립변인의 값이 관련없어야 함
    • 등분산성 : 독립변인의 모든 값에 대한 오차들의 분산이 일정
    • 비상관성 : 관측치들의 잔차들끼리 상관이 없어야 함
    • 정상성 : 잔차항이 정규분포를 이뤄야 함

6. 데이터마이닝 : 거대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보 찾는 과정

  • 통계분석(가설이나 가정에 따른 분석/검증), 데이터마이닝(다양한 알고리즘으로 데이터에서 의미있는 정보 찾기)
  • 데이터마이닝 추진단계 : 목적설정 > 데이터준비 > 데이터가공 > 데이터마이닝기법적용 > 검증
    • 목적설정 : 데이터마이닝으로 무엇을 왜 하는지 명확한 목적 설정
    • 데이터준비 : 필요한 데이터 수집
    • 데이터가공 : 모델링 목적에 따라 목적변수 정의
    • 데이터마이닝기법적용 : 명확한 목적에 맞게(목적설정단계) 데이터마이닝기법 적용하여 정보 추출
    • 검증 : 마이닝으로 추출된 정보 검증(검증 후 업무에 적용 가능)

7. 연관분석 : 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하는 분석

  • 장바구니 분석 : 장바구니에 무엇 들어있는지 분석 (커피머신 사러온 사람은 커피캡슐도 삼)
  • 순차분석 : 구매이력 분석 (세탁기 산 사람이 한달 내에 건조기 구매)

8. 연관규칙 : 조건과 반응의 형태 (if-then) , 항목들 간 '조건-결과' 식으로 표현되는 유용한 패턴

(Item set A) => (Item set B)
If A then B : 만일 A가 일어나면 B가 일어난다.

9. 연관규칙의 측정지표

  • 지지도(support) : 전체 거래 중에서 품목 A,B가 동시에 포함되는 거래의 비율
                           P(A∩B) = A와B가동시에포함된거래수 / 전체거래수
  • 신뢰도 : 품목A가 포함된 거래 중 품목A,B를 동시에 포함하는 거래일 확률
               P(A∩B) / P(A) = A와B가 동시에 포함된 거래수 / A를 포함하는 거래수
  • 향상도 : 품목B를 구매한 고객 대비 품목A를 구매한 후 품목B를 구매하는 고객에 대한 확률
               P(A | B) / P(B) = P(A∩B) / P(A)P(B) = A와B를포함한거래수 / A를포함하는거래수×B를포함하는거래수

10. 자료형 데이터 구조 변환 : R에서 객체의 데이터 구조를 다른 구조로 바꾸고자 할 때 아래 함수 사용

  • as.data.frame(x) : 데이터 프레임 형식으로 변환
  • as.list(x) : 리스트 형식으로 변환
  • as.matrix(x) : 행렬 형식으로 변환
  • as.vector(x) : 벡터 형식으로 변환
  • as.factor(x) : 팩터 형식으로 변환

11. 의사결정나무 모형 : 의사결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법

  • 분석단계 : 성장단계 > 가지치기 단계 > 타당성평가 단계 > 해석및예측 단계
  • 장단점
    → 장점 : 구조단순,해석용이,유용한입력변수파악, 선형성,정규성 등 수학적가정 불필요한 비모수적 모형
    → 단점 : 분류기준값 경계선 근방의 자료값에 대해서는 오차가 클수록 효과 파악하기 어려움. 신규자료는 불안정

12. 불순도에 따른 분할 측도 : 카이제곱 통계량, 지니지수, 엔로피지수

 

반응형

댓글