반응형
1. 탐색적 자료분석(EDA) 5가지 특징
- 시각화하여 분석하는 분석 방식
- 다양한 차원과 값을 조합 (특이점이나 의미있는 사실 도출)
- EDA 4가지 주제
- 저항성의 강조
- 잔차 계산
- 자료변수의 재표현
- 그래프를 통한 현시성
- 데이터 양 많을수록 활용도 많이 함
- 시간 많이 필요한 경우 : 모델링 업무로 진행하는 것이 일반적
- 최근 EDA 자동
- 신속하게 수행
- 유의미한 값만 파악
- 데이터 만듦
2. 패턴 인식 : 원자료 이용해서 사전지식과 패턴에서 추출된 통계정보로 자료 또는 패턴 분류하는 분야
- 교사학습법(지도학습) : 온라인 쇼핑몰 기존 고객 구매패턴으로 고객그룹 분류하는 방법
- 비교사학습법(비지도학습) : 비슷한 성향을 가진 고객들의 유사도에 근거여 군집을 만들어 고객마케팅에 활용
3. 데이터 마트 : 전체 데이터웨어하우스에 있는 일부 데이터를 가지고 있으며 특정 사용자를 대상으로 함
- 데이터의 한 부분으로서 특정 사용자가 관심을 갖는 데이터를 담은 비교적 작은 규모의 데이터웨어하우스
- 일반적으로 데이터베이스 형태로 갖고 있는 다양한 정보를 사용자의 요구 항목에 따라 체계적으로 분석하여
기업의 경영 활동을 돕기 위한 시스템
4. 데이터 처리
- 데이터웨어하우스(DH) : 정부기관 또는 정부 전체의 상세 데이터 포함
- 데이터마트(DM) : 전체 데이터웨어하우스에 있는 일부데이터를 가지고 특정 사용자를 대상으로 함
- 시뮬레이션 : 복잡한 실제상황을 단순화해서 컴퓨터상의 모델로 만들어 재현하거나 변경함으로써 현상을 보다 잘 이해하고 미래의 변화에 따른 결과를 예측하는 분석방법
시뮬레이션 모델링 : 모델링에 적합한 단계별 처리시간에 대한 분포를 파악할 수 있는 내용과 유형. 그에 따른 특성을 속성으로 만듦 - 최적화 : 제약값에 대한 내용과 목적함수와 제약조건에 들어갈 계수 값을 프로세스별로 산출
- 데이터 마이닝 : 거대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 과정
데이터마이닝 분류 : 분류값과 입력변수들을 연관시켜 인구통계, 요약변수, 파생변수 등을 산출
5. DBMS란? 데이터베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유하고 사용할 수 있는 환경을 제공
6. 시각화
- 수준 ↓ , 효율 ↑
- 대용량 데이터(빅데이터) 탐색적 분석에 필수
- 여러 차트형식의 시각화와 트리구조에서 다이어그램 맵, 워드클라우드, SNA에서 집단의 특성과 관계그래프화 등의 작업
7. 공간 분석
- 공간적 차원과 관련된 속성들을 시각화하는 분석
- 지도 위에 관련된 속성들을 생성하고 크기, 모양, 선 굵기 등을 구분하여 인사이트를 얻음
8. 통계 분석
- 자료표현 : 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자와 표, 그림의 형태로 나타냄
- 기술통계학
- 기존에 있는 데이터를 숫자로 정리하는 방법
- 수집된 자료를 정리, 요약 -> 수치, 표, 그래프로 자료의 특징을 파악
ex) 대통령 선거에서 각 후보가 받은 득표수, 평균 키
- 추측통계학
- 모집단에 대해 추측하고 일반화시키는 분야 (추론)
- 새로운 가설이 맞는지 틀리는지를 검증
- 대통령 선거 당일 500명으로 추측한 당선후보 예상 득표율
9. 데이터 마이닝 : 정보요약 (관계, 패턴, 규칙등을 탐색 -> 모형화 -> 유용한 지식 추출)
- 기계학습 : 인공지능 한 분야. 알고리즘과 기술개발 분야. 인공신경망, 의사결정나무, 클러스터링, SVM
- 패턴인식 : 통계정보를 기반, 자료 또는 패턴을 분류하는 방법. 연관규칙, 장바구니 분석
- 데이터마이닝의 모델링
- 지나치게 통계적 가설이나 유의성에 집착하지 말아야 함
- 충분한 시간 있으면 다양한 옵션 줘서 시도 -> 일정 성과 나오면 해석과 활용 단계로 진행
- 분석데이터를 학습 및 테스트 데이터로 6:4, 7:3, 8:2 비율로 상황에 맞게 실시
- 성능에 집착 -> 시간 낭비. 따라서 훈련 및 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단
- 데이터마이닝 활용분야 : 데이터베이스마케팅, 신용평가 및 조기경보시스템, 생물정보학, 텍스트마이닝
- 데이터마이닝 활용평가 기준 : 정확도, 정밀도, 디렉트레이트, 리프트
10. 시뮬레이션
- 복잡한 실제상황
- 단순화
- 컴퓨터상의 모델로 만듦
- 재현 또는 변경
- 현상을 보다 잘 이해
- 미래의 변화에 따른 결과 예측 사용
- 빅데이터 시대의 모델링이 쉬워짐
- 시뮬레이션 활용평가 기준 : Throughput, Average Waiting Time, Average Queue Length, Time in system
11. 최적화
- 목적함수 값을 최대화 또는 최소화하는 것을 목표로 하는 방법
- 제약조건 하에서 목표값을 개선하는 방식
- 최적값을 찾을 수 없는 상황과 복잡한 모델링. 알고리즘과 분석도구의 발전으로 더 쉽게 최적화 접근
반응형
댓글