본문 바로가기
자격증/ADsP

ADsP 내용 정리 (1과목. 데이터 이해 - (제2장) 데이터의 가치와 미래)

by 어느덧중반 2021. 7. 7.
반응형

제2장 데이터의 가치와 미래

제1절 빅데이터의 이해

1. 정의

  • 데이터 변화 : Volume(센싱데이터, 비정형 데이터), Variety(유형과 소스측면의 정형, 비정형 데이터),

            Velocity(데이터 수집과 처리측면)
  • 기술 변화 : 새로운 데이터처리, 저장, 분석 및 아키텍쳐. 클라우드 컴퓨팅 활용

  • 인재,조직 변화 : Data Scientist같은 새로운 인재필요, 데이터중심 조직

2. 출현 배경

① 산업계 : 고객 데이터를 축적하여 데이터에 숨은 가치를 발굴해 새로운 성장동력원으로서의 기술 확보

② 학계 : 거대 데이터를 다루는 학문 분야가 늘어나며 기술아키텍쳐 및 통계 도구들이 지속 발전

③ 기술발전 : 관련기술의 발달(디지털화, 저장기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅)

④ ICT발전

  • 데이터 규모 : EB(Exa Byte) - ZB(Zetta Byte) 진입
  • 데이터 유형 : 정형 데이터(DB, 사무정보) - 비정형 데이터(이메일, 멀티미디어, SNS) - 사물정보, 인지정보
  • 데이터 특성 : 구조화 - 다양성, 복합성, 소셜 - 현실성, 실시간성

3. 빅데이터의 기능 (비유)

  • 산업혁명의 석탄, 철 : 제조업뿐 아니라 서비스분야의 생산성을 획기적으로 끌어올려, 사회/경제/문화/생활 전반에 혁명적 초래
  • 21세기의 원유 : 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상
  • 렌즈 : 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향
  • 플랫폼 : 공동 활용의 목적으로 구축된 유무형의 구조물.

4. 빅데이터로 인한 본질적변화

  • 사전처리 -> 사후처리
    • 필요정보만 수집하고 그 데이터를 다양한 방식으로 조합해 숨은 정보 찾아냄
  • 표본조사 -> 전수조사
    • 표본을 조사하는 기존 지식발견방식에서 전수조사를 통해 샘플링이 주지 못한 패턴이나 정보 발견
  • 질 -> 양
    • 데이터가 지속 추가될 경우 양질의 정보가 오류 정보보다 많아 전체적으로 좋은결과 산출
  • 인과관계 -> 상관관계
    • 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 이에 상응하는 행동을 하도록 추천되는 일이 늘어남

 

제2절 빅데이터의 가치와 영향

1. 빅데이터의 가치 : 빅데이터 가치 산정이 어려운 이유

  • 데이터 활용방식 : 재사용, 재조합 등 특정 데이터를 언제, 누가, 어디서 활용하는지 알기 어려워짐
  • 새로운 가치창출 : 빅데이터 시대에는 데이터가 새로운 가치 창출함으로 그 가치 측정이 어려움
  • 분석 기술 발전 : 현재는 가치없는 데이터일지라도, 추후에 새로운 분석기법으로 활용가능할 때 가치측정 어려움

2. 빅데이터의 영향

  • 가치를 만들어내는 방식
    • 투명성 제고로 연구개발 및 관리효율성 제고
    • 시뮬레이션 통해 수요 포착 및 주요변수탐색으로 경쟁력 강화
    • 고객 세분화 및 맞춤 서비스 제공
    • 알고리즘 활용해 의사결정 보조 혹은 대체
    • Biz모델과 제품/서비스의 혁신
  • 시장 플레이어에 미치는 영향 : 생활 전반의 스마트화
    • 기업 : 혁신, 경쟁력제고, 생산성향상 (빅데이터로 소비자행동분석 및 시장예측으로 Biz모델혁신하거나 신사업 발굴)
    • 정부 : 환경탐색, 상황분석, 미래대응 (기상,인구이동,통계 등을 수집해 사회변화 추정 및 관련정보 추출)
    • 개인 : 목적에 따른 활용 (정치인이나 대중가수 등과 같은 개인 인지도 향상 등에 빅데이터 활용)

 

제3절 비즈니스 모델

1. 빅데이터 활용 사례

  • 기업 : 구글(사용자 로그데이터활용으로 기존 알고리즘 혁신), 월마트(고객 구매패턴 분석으로 상품진열에 활용)
  • 정부 : 실시간 교통정보, 기후정보, 지질활동, 소방 서비스 모니터링
  • 개인 : SNS 분석을 통한 선거활동, 가수의 경우 음악청취기록 분석으로 콘서트 노래순서 선정등에 활용

2. 빅데이터 활용 기본 테크닉

  • 연관규칙학습 : 커피 구매하는 사람이 탄산을 더 많이 사는가? (연관성)
  • 유형 분석 : 이 사용자는 어떤 특성을 가진 집단에 속하는가?
  • 유전자 알고리즘 : 최대의 시청률 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
  • 기계학습 : 기존 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중 어떤 것을 가장 보고싶어할까?
  • 회귀분석 : 구매자의 나이가 구매 차량의 타입에 어떤 영향 미치는가?
  • 감성분석 : 새로운 환불 정책에 대한 고객의 평가는 어떨까?
  • 소셜네트워크분석 : 고객들간 관계망은 어떻게 구성되어 있나?

 

제4절 위기 요인과 통제 방안

1. 위기 요인

  • 사생활 침해 : 개인정보가 증가하며 사생활 침해를 넘어 사회, 경제적 위협으로 변형
  • 책임원칙훼손 : 어떠한 사람이 특정 집단에 속한다는 이유로 신용도와 무관하게 대출 거절되는 상황
  • 데이터 오용 : 데이터에 의존하여 잘못된 미래 예측, 잘못된 지표를 사용하는 경우

2. 위기 요인에 따른 통제 방안

  • 동의에서 책임으로
    • 기대효과 : 개인정보 유출로 발생하는 피해에 대한 책임을 지게되므로 사용주체의 보호장치를 강구해야 함
  • 결과기반 책임원칙 고수
    • 기대효과 : 잘못된 예측 알고리즘을 통한 판단근거로 불이익 줄 수 없으며 이에따른 피해를 최소화하는 장치 마련해야 함
  • 알고리즘 접근 허용
    • 기대효과 : 불이익당한 사람들을 대변할 전문가(알고리즈미스트) 필요

 

제5절 미래의 빅데이터

  • 데이터 : 모든 것들의 데이터화
    • 모든 것을 데이터화 하는 현 추세로 특정 목적없이 축적된 데이터를 통한 창의적 분석이 가능해짐
  • 기술 : 진화하는 알고리즘, 인공지능
    • 대용량 데이터 빠르게 처리하기 위한 알고리즘 진화, 스스로학습, 인공지능 기술 출현
  • 인력 : 데이터 사이언티스트, 알고리즈미스트
    • 빅데이터 처리를 위한 역할이 등장하며 빅데이터의 다각적 분석을 통한 인사이트 도출 중요
반응형

댓글