본문 바로가기
자격증/ADsP

ADsP 내용 정리 (4과목. 데이터 분석 - 키워드별 정리, 18회기출문제분석3)

by 어느덧중반 2021. 7. 13.
반응형

1. 연관분석

  • 연관규칙 : 항목들 간의 '조건-결과' 식으로 표현되는 유용한 패턴
  • 연관분석(장바구니 분석) : 연관규칙을 발견해내는 것
  • 연관분석 특징
    • 기업 활동 중 마케팅 분야에서 가장 많이 사용됨
    • 트랜잭션 : 특정고객, 장바구니 하나에 해당하는 정보
    • 장바구니 데이터에서는 주로 트랜잭션 사이의 연관성을 살펴보는 것으로 빈번한 규칙 찾기
  • 연관분석 장점
    • 탐색적인 기법 : 조건반응으로 표현되는 결과 이해 쉬움
    • 강력한 비목적석 분석기법 : 분석 방향/목적이 특별하게 없는 경우 목적변수 없으므로 유용
    • 사용이 편리한 분석 데이터 형태 : 데이터변환없이 사용 가능
    • 계산 용이
  • 연관분석 단점
    • 상당한 수의 계산 과정 : 품목 수 증가하면 분석에 필요한 계산은 대폭 늘어남
    • 적절한 품목의 결정 : 너무 세분화해서 분석하면 의미없는 분석 나올 수 있음
    • 품목의 비율 차이 : 상대적으로 거래량 적은 품목은 규칙발견시 제외되기 쉬움

2. 부스팅 / 배깅 / 붓스트랩

  • 배깅 : 주어진 자료에서 여러 개의 붓스트랩자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후
            결합하여 최종 예측모형을 만드는 방법
  • 붓스트랩 : 주어진 자료에서 동일한 크기의 표본을 랜덤 복원 추출로 뽑은 자료
  • 부스팅
    • 배깅의 과정과 유사하나 붓스트랩 표본을 구성하는 재표본 과정에서 각 자료에 동일한 확률을
      부여하는것이 아니라 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출함
    • 붓스트랩 표본을 추출하여 분류기를 만든 후 그 분류결과를 이용하여 각 데이터가 추출될 확률을
      조정한 후 다음 붓스트랩 표본을 추출하는 과정을 반복함
    • 가장 많이 사용되는 부스팅 알고리즘 : 아다부스팅

3. 최소자승법 : 입력변수x와 출력변수y사이에 함수관계 존재한다고 할때 그 인과관계 파악하는데 사용

반응형

댓글