본문 바로가기
자격증/ADsP

ADsP 내용 정리 (4과목. 데이터 분석 - 키워드별 정리, 18회기출문제분석2)

by 어느덧중반 2021. 7. 13.
반응형

1. 비모수 검정

  • 모수적 검정 : 검정하고자 하는 모집단 분포에 대한 가정을 하고 그 가정하에 검정통계량과 분포를 유도해 검정 실시
    • 가정된 분포의 모수(모평균, 모비율, 모분산)에 대해 가설 설정
    • 관측된 자료를 이용해 구한 표본평균,표본분산 등을 이용해 검정 실시
  • 비모수적 검정 : 자료가 추출된 모집단 분포에 대해 아무 제약 가하지 않고 검정 실시
    • 가설은 단지 '분포의 형태가 동일하다' 또는 '동일하지않다'와 같이 설정
    • 관측값의 절대 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정함
  • 대표적 비모수 검정방법 : 쌍으로 관측된 표본에 대한 부호 검정, 윌콕슨의 순위합검정, 윌콕슨의 부호순위합검정,
                                     만-위트니의 U검정, 런검정, 스피어만의 순위상관계수

2. SOM (자기조직화지도) : 비지도신경망으로 고차원 데이터를 이해하기 쉬운 저차원 지도형태로 형상화

  • SOM구성
    • 입력층 : 입력변수 개수와 동일하게 뉴런 수가 존재
    • 경쟁층 : (2차원격자로 구성) 사용자가 미리 정해놓은 군집의 수만큼 뉴런 수 존재
    • 지도 : 입력층 자료는 학습을 통해 경쟁층에 정렬됨
    • 입력층의 각 뉴런은 경쟁층 각 뉴런들과 연결되어 있음(완전연결)
  • SOM특징
    • 고차원 데이터를 저차원 지도형태로 형상화하므로 시각적으로 이해가 쉬움
    • 입력 위치관계 그대로 보존하기때문에 지도상에서 가깝게 표현됨
    • 역전파 알고리즘을 이용하는 인공신경망과 달리 단 하나 전방패스 사용하여 속도 매우 빠름
    • 재적으로 실시간 학습처리할 수 있는 모델

 

3. 회귀조건 만족 여부 판단법

  • 가설수립 : 독립변수x와 종속변수y간 선형관계가 있다면 기울기는 0이 아닐것임
                  (귀무가설은 기울기가 0, 대립가설은 기울기가 0이 아니다)
  • 분석계획 수립 : 표본자료 어떻게 이용할지 명시(유의수준 0.01, 0.05, 0.1). 기울기가 0과 유의한 차이 있는지
  • 표본자료 분석 : 표본자료를 이용해 기울기의 표준오차, 기울기, 검정통계량 및 p-값 구한다.
  • 결과해석 : 주어진 귀무가설에 해당하는 표본 아닐거같으면 귀무가설 기각.
                  (p-값과 유의수준 비교해 p-값이 유의수준보다 작다면 귀무가설 기각)

 

4. 가설검정 : 모집단에서 추출한 표본의 정보를 이용하여 미지의 모수에 대한 주장

  • p -값 : 귀무가설이 사실일 때 관측된 검정통계량의 값보다 더 대립가설을 지지하는 검정통계량이 나올 확률
  • 제1종오류 : 귀무가설이 참이지만 검정결과 귀무가설을 기각하는 오류
  • 제2종오류 : 귀무가설이 거짓이지만 귀무가설을 채택하게되는 오류

5. 회귀분석 : 하나나 그 이상 변수들이 또 다른 변수에 미치는 영향에 대해 추론하는 통계기법

  • 회귀분석 검토사항
    • 모형이 통계적으로 유의미한가?
      = F통계량을 확인
    • 회귀계수들이 유의미한가?
      = 해당 계수의 t통계량과 p-값 또는 이들의 신뢰구간 확인
    • 모형이 얼마나 설명력을 갖는가?
      = 결정계수 확인 (결정계수는 0~1값 가지며 높은 값 가질수록 추정된 회귀식 설명력이 높음)
    • 모형이 데이터를 잘 적합하고 잇는가?
      = 잔차를 그래프로 그리고 회귀진단

6. Bias-variance trade off

  • Bias(편향) : 기댓값과 실제값 차이. 모델의 치우침 정도
  • Variance(분산 : 예측값이 평균으로부터 퍼져있는 정도.
  • 과소적합 : 편향이 크고 분산이 작은 경우 (모델 복잡도 너무 낮아짐)
  • 과대적합 : 편향이 작고 분산이 큰 경우 (모델 복잡도 너무 높아짐)
  • trade off : 두 개의 목표 가운데 하나 달성하려 하면 다른 목표 달성이 힘들어지거나 희생되는 경우

7. 상관분석

  • 두 변수간의 상관 정도를 상관계수를 통해 확인할 수 있음
  • 상관계수 -1 ~ 1사이의 값으로 양수는 양의 상관, 음수는 음의 상관을 표현
  • 상관계수가 0이면 데이터간 상관이 없음
  • 피어슨 상관계수 : 등간척도 이상으로 측정된 두 변수들의 상관관계 측정
  • 스피어만 순서상관계수 : 순서 또는 서열 척도인 두 변수들 간의 상관관계 측정

8. 인과관계

  • 종속변수 : 다른 변수의 영향을 받는 변수
  • 독립변수 : 영향을 주는 변수
  • 산점도 : 좌표평면 위에 점들로 표현

 

반응형

댓글