본문 바로가기
자격증/ADsP

ADsP 내용 정리 (4과목. 데이터 분석 - 키워드별 정리)

by 어느덧중반 2021. 7. 9.
반응형

1. 탐색적 자료분석(EDA) 5가지 특징

  • 시각화하여 분석하는 분석 방식
  • 다양한 차원과 값을 조합 (특이점이나 의미있는 사실 도출)
  • EDA 4가지 주제
    • 저항성의 강조
    • 잔차 계산
    • 자료변수의 재표현
    • 그래프를 통한 현시성
  • 데이터 양 많을수록 활용도 많이 함
  • 시간 많이 필요한 경우 : 모델링 업무로 진행하는 것이 일반적
    • 최근 EDA 자동
    • 신속하게 수행
    • 유의미한 값만 파악
    • 데이터 만듦

2. 패턴 인식 : 원자료 이용해서 사전지식과 패턴에서 추출된 통계정보로 자료 또는 패턴 분류하는 분야

  • 교사학습법(지도학습) : 온라인 쇼핑몰 기존 고객 구매패턴으로 고객그룹 분류하는 방법
  • 비교사학습법(비지도학습) : 비슷한 성향을 가진 고객들의 유사도에 근거여 군집을 만들어 고객마케팅에 활용

3. 데이터 마트 : 전체 데이터웨어하우스에 있는 일부 데이터를 가지고 있으며 특정 사용자를 대상으로 함

  • 데이터의 한 부분으로서 특정 사용자가 관심을 갖는 데이터를 담은 비교적 작은 규모의 데이터웨어하우스
  • 일반적으로 데이터베이스 형태로 갖고 있는 다양한 정보를 사용자의 요구 항목에 따라 체계적으로 분석하여
    기업의 경영 활동을 돕기 위한 시스템

4. 데이터 처리

  • 데이터웨어하우스(DH) : 정부기관 또는 정부 전체의 상세 데이터 포함
  • 데이터마트(DM) : 전체 데이터웨어하우스에 있는 일부데이터를 가지고 특정 사용자를 대상으로 함
  • 시뮬레이션 : 복잡한 실제상황을 단순화해서 컴퓨터상의 모델로 만들어 재현하거나 변경함으로써 현상을 보다 잘 이해하고 미래의 변화에 따른 결과를 예측하는 분석방법
    시뮬레이션 모델링 : 모델링에 적합한 단계별 처리시간에 대한 분포를 파악할 수 있는 내용과 유형. 그에 따른 특성을 속성으로 만듦
  • 최적화 : 제약값에 대한 내용과 목적함수와 제약조건에 들어갈 계수 값을 프로세스별로 산출
  • 데이터 마이닝 : 거대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 과정
    데이터마이닝 분류 : 분류값과 입력변수들을 연관시켜 인구통계, 요약변수, 파생변수 등을 산출

5. DBMS란? 데이터베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유하고 사용할 수 있는 환경을 제공

6. 시각화

  • 수준 ↓ , 효율 ↑
  • 대용량 데이터(빅데이터) 탐색적 분석에 필수
  • 여러 차트형식의 시각화와 트리구조에서 다이어그램 맵, 워드클라우드, SNA에서 집단의 특성과 관계그래프화 등의 작업

7. 공간 분석

  • 공간적 차원과 관련된 속성들을 시각화하는 분석
  • 지도 위에 관련된 속성들을 생성하고 크기, 모양, 선 굵기 등을 구분하여 인사이트를 얻음

8. 통계 분석

  • 자료표현 : 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자와 표, 그림의 형태로 나타냄
  • 기술통계학
    • 기존에 있는 데이터를 숫자로 정리하는 방법
    • 수집된 자료를 정리, 요약 -> 수치, 표, 그래프로 자료의 특징을 파악
      ex) 대통령 선거에서 각 후보가 받은 득표수, 평균 키
  • 추측통계학
    • 모집단에 대해 추측하고 일반화시키는 분야 (추론)
    • 새로운 가설이 맞는지 틀리는지를 검증
      • 대통령 선거 당일 500명으로 추측한 당선후보 예상 득표율

9. 데이터 마이닝 : 정보요약 (관계, 패턴, 규칙등을 탐색 -> 모형화 -> 유용한 지식 추출)

  • 기계학습 : 인공지능 한 분야. 알고리즘과 기술개발 분야. 인공신경망, 의사결정나무, 클러스터링, SVM
  • 패턴인식 : 통계정보를 기반, 자료 또는 패턴을 분류하는 방법. 연관규칙, 장바구니 분석
  • 데이터마이닝의 모델링
    • 지나치게 통계적 가설이나 유의성에 집착하지 말아야 함
    • 충분한 시간 있으면 다양한 옵션 줘서 시도 -> 일정 성과 나오면 해석과 활용 단계로 진행
    • 분석데이터를 학습 및 테스트 데이터로 6:4, 7:3, 8:2 비율로 상황에 맞게 실시
    • 성능에 집착 -> 시간 낭비. 따라서 훈련 및 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단
  • 데이터마이닝 활용분야 : 데이터베이스마케팅, 신용평가 및 조기경보시스템, 생물정보학, 텍스트마이닝
  • 데이터마이닝 활용평가 기준 : 정확도, 정밀도, 디렉트레이트, 리프트

10. 시뮬레이션

  • 복잡한 실제상황
    • 단순화
    • 컴퓨터상의 모델로 만듦
    • 재현 또는 변경
    • 현상을 보다 잘 이해
    • 미래의 변화에 따른 결과 예측 사용
  • 빅데이터 시대의 모델링이 쉬워짐
  • 시뮬레이션 활용평가 기준 : Throughput, Average Waiting Time, Average Queue Length, Time in system

11. 최적화

  • 목적함수 값을 최대화 또는 최소화하는 것을 목표로 하는 방법
  • 제약조건 하에서 목표값을 개선하는 방식
  • 최적값을 찾을 수 없는 상황과 복잡한 모델링. 알고리즘과 분석도구의 발전으로 더 쉽게 최적화 접근
반응형

댓글