ADsP 내용 정리 (4과목. 데이터 분석 - 키워드별 정리, 18회기출문제분석1)

1. 회귀모형의 변수선택법 : 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석해 가장 적합한 모형 선택

전진선택법 : 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
후진제거법 : 독립변수 후보 모두를 포함한 모형에서 가장 적은 영향을 주는 변수부터 하나씩 제거
단계별방법 : 전진선택법에 의해 변수를 추가하며 새롭게 추가된 변수를 인해 기존 변수가 그 중요도가 약화되면
해당변수를 제거하는 등 단계별로 추가 또는 삭제되는 변수를 검토해 더 이상 없을 때 중단

2. R명령어

Im(종속변수~설명변수. 데이터세트) : 사용할 분석방법은 회귀분석인 것을 인지시켜 줌
Direction="변수선택방법" : 선택 가능한 옵션은 forward, backward, both가 있음
scope=list(lower=~1, upper~설명변수) : scope는 분석할 때 고려할 변수의 범위를 정함. 변수선택과정에서
설정할 수 잇는 가장 큰 모형 혹은 가장 작은 모형을 설정

3. 계층적 군집

거리 : 군집분석에서는 관측 데이터간 유사성이나 근접성을 측정해 어느 군집으로 묶을 수 있는지 판단해야 함
계층적 군집 : 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법
- 수학적 거리 : 유클리드 거리, 맨하튼 거리, 민코우스키 거리
- 통계적 거리 : 표준화 거리, 마할라노비스 거리
  - 표준화 거리 : 변수의 측정단위를 표준화한 거리
  - 마할라노비스 거리 : 변수의 표준화와 함께 변수 간 상관성을 동시에 고려한 통계적 거리

4. 상관 분석 : 두 변수간 상관관계를 상관계수 이용하여 확인하는 방법

5. 회귀분석 : 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법

6. 데이터마이닝 : 거대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보 찾는 과정

7. 연관분석 : 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하는 분석

8. 연관규칙 : 조건과 반응의 형태 (if-then) , 항목들 간 '조건-결과' 식으로 표현되는 유용한 패턴

(Item set A) => (Item set B)
If A then B : 만일 A가 일어나면 B가 일어난다.

9. 연관규칙의 측정지표

지지도(support) : 전체 거래 중에서 품목 A,B가 동시에 포함되는 거래의 비율
P(A∩B) = A와B가동시에포함된거래수 / 전체거래수
신뢰도 : 품목A가 포함된 거래 중 품목A,B를 동시에 포함하는 거래일 확률
P(A∩B) / P(A) = A와B가 동시에 포함된 거래수 / A를 포함하는 거래수
향상도 : 품목B를 구매한 고객 대비 품목A를 구매한 후 품목B를 구매하는 고객에 대한 확률
P(A | B) / P(B) = P(A∩B) / P(A)P(B) = A와B를포함한거래수 / A를포함하는거래수×B를포함하는거래수

10. 자료형 데이터 구조 변환 : R에서 객체의 데이터 구조를 다른 구조로 바꾸고자 할 때 아래 함수 사용

11. 의사결정나무 모형 : 의사결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법

분석단계 : 성장단계 > 가지치기 단계 > 타당성평가 단계 > 해석및예측 단계
장단점
→ 장점 : 구조단순,해석용이,유용한입력변수파악, 선형성,정규성 등 수학적가정 불필요한 비모수적 모형
→ 단점 : 분류기준값 경계선 근방의 자료값에 대해서는 오차가 클수록 효과 파악하기 어려움. 신규자료는 불안정

12. 불순도에 따른 분할 측도 : 카이제곱 통계량, 지니지수, 엔로피지수

댓글