[Biomedical Data Science] - 4. 데이터 마이닝
Bioinformatics/Biomedical Data Science

[Biomedical Data Science] - 4. 데이터 마이닝

 

[Biomedical Data Science] - 4. 데이터 마이닝

 

데이터마이닝의 개념

의미 있는 패턴과 규칙을 발견하기 위해서 자동화되거나,
반자동화된 도구를 이용해서 대량의 데이터를 탐색하고 분석하는 과정

데이터에 함축되어 있으나 이전에는 발견되지 않은 잠재적으로 유용한 정보를 새롭게 추출 
-> 과거 행위의 분석을 기초로 미래 행위 예측

 

데이터마이닝의 특징

  • 대용량의 관측 가능한 자료(실험자료-계획적 / 관측자료-비계획적)
  • 컴퓨터 중심적 방법(컴퓨터의 처리 속도와 연산 능력)
  • 경험적 방법에 근거(이론 x)
  • 일반화에 초점(에측모형이 새로운 자료에 얼마나 잘 적응하는가?)

 

데이터마이닝의 활용 분야

통계학, 패턴인식, 뉴로컴퓨팅, 기계학습

  • 데이터베이스 마케팅
  • 신용평가(신용거래 대출한도 추정)
  • 품질관리(불량품 찾기)
  • 부정행위 적발(신용카드 거래사기, 불량수표 적발, 전화카드 거래 사기 방지 등)
  • 이미지 분석(천문학, 문자 인식, 의료 진단, 방위 산업)

 

데이터마이닝 프로젝트의 프로세스

  1. 프로젝트 수행계획의 수립
  2. 데이터의 이해
  3. 데이터 준비
  4. 데이터 분석 및 모형화
  5. 평가 및 적용

 

데이터마이닝 프로젝트 수행을 위해 필요한 세 가지 요소

  • 충분한 이해(해당 비즈니스에 대한 충분한 이해)
  • 정보 기술(필요한 데이터 관리 및 추출)
  • 데이터분석 능력(통계적 분석)

 

데이터 유형

서술적 데이터

성별, 연령, 거주지역, 결혼 여부, 수입, 주택 소유 여부, 거주 형태, 교육 수준 등
개인이나 가구의 특성을 묘사하며 보통 요약 데이터의 형태를 가진 데이터
  • 자주 변하지 않음(고객에 대한 기본적 정보)
  • 안정적이기 떄문에 예측 모형 구축에 유용
  • 개인 단위의 정확한 자료 수집이 쉽지 않은 경우가 많음
  • 특별한 보상이 없는 경우 신뢰성을 보장하기 힘듦

 

행동특성 데이터

기업이 고객과 상호교류함으로써 자연스럽게 발생하는 여러 종류의 데이터
  • 시간에 따라 빨리 변화
  • 데이터 구조 쉽게 변경되고 갱신
  • 예측 모형에 가장 유용

 

태도 특성 데이터

고객의 태도나 심리적 특성을 측정하며 여론조사, 서베이 등을 통해 수집된 데이터
  • 소수의 고객으로부터 수집
  • 세분화 또는 통계적 기법을 이용하여 군집화된 훨씬 많은 수의 고객 세그먼트에 적용
  • 개별 고객단위의 정확한 데이터 수집이 어려움

 

데이터 웨어하우스

기업의 의사결정 과정을 지원하기 위한 주제 중심적이고 통합적이며 시간성을 가지는 비휘발성 자료의 집합주제
  • 지향성
  • 시계열성(일정 기간 동안 정확성 유지)
  • 통합성
  • 비휘발성

 

데이터 마트

하나의 데이터마이닝 주제 또는 고객 분석을 위해 통합된 데이터로 구성된 일시적/보조적인 데이터 저장소
  • 특정한 목적의 사용자 그룹을 위해 특정 주제영역의 데이터들로 만들어짐

 

메타데이터

데이터에 대한 데이터
  • 데이터 원천, 수집 경로, 규칙, 갱신 날짜 등 데이터에 대한 기술적 및 업무적인 내용
  • 데이터 관리를 위해 매우 상세하고 이해하기 쉽게 작성되어야 함
728x90