Bioinformatics/Biomedical Data Science
[Biomedical Data Science] - 4. 데이터 마이닝
JOFTWARE
2021. 6. 18. 12:45
[Biomedical Data Science] - 4. 데이터 마이닝
데이터마이닝의 개념
의미 있는 패턴과 규칙을 발견하기 위해서 자동화되거나,
반자동화된 도구를 이용해서 대량의 데이터를 탐색하고 분석하는 과정
데이터에 함축되어 있으나 이전에는 발견되지 않은 잠재적으로 유용한 정보를 새롭게 추출
-> 과거 행위의 분석을 기초로 미래 행위 예측
데이터마이닝의 특징
- 대용량의 관측 가능한 자료(실험자료-계획적 / 관측자료-비계획적)
- 컴퓨터 중심적 방법(컴퓨터의 처리 속도와 연산 능력)
- 경험적 방법에 근거(이론 x)
- 일반화에 초점(에측모형이 새로운 자료에 얼마나 잘 적응하는가?)
데이터마이닝의 활용 분야
통계학, 패턴인식, 뉴로컴퓨팅, 기계학습
- 데이터베이스 마케팅
- 신용평가(신용거래 대출한도 추정)
- 품질관리(불량품 찾기)
- 부정행위 적발(신용카드 거래사기, 불량수표 적발, 전화카드 거래 사기 방지 등)
- 이미지 분석(천문학, 문자 인식, 의료 진단, 방위 산업)
데이터마이닝 프로젝트의 프로세스
- 프로젝트 수행계획의 수립
- 데이터의 이해
- 데이터 준비
- 데이터 분석 및 모형화
- 평가 및 적용
데이터마이닝 프로젝트 수행을 위해 필요한 세 가지 요소
- 충분한 이해(해당 비즈니스에 대한 충분한 이해)
- 정보 기술(필요한 데이터 관리 및 추출)
- 데이터분석 능력(통계적 분석)
데이터 유형
서술적 데이터
성별, 연령, 거주지역, 결혼 여부, 수입, 주택 소유 여부, 거주 형태, 교육 수준 등
개인이나 가구의 특성을 묘사하며 보통 요약 데이터의 형태를 가진 데이터
- 자주 변하지 않음(고객에 대한 기본적 정보)
- 안정적이기 떄문에 예측 모형 구축에 유용
- 개인 단위의 정확한 자료 수집이 쉽지 않은 경우가 많음
- 특별한 보상이 없는 경우 신뢰성을 보장하기 힘듦
행동특성 데이터
기업이 고객과 상호교류함으로써 자연스럽게 발생하는 여러 종류의 데이터
- 시간에 따라 빨리 변화
- 데이터 구조 쉽게 변경되고 갱신
- 예측 모형에 가장 유용
태도 특성 데이터
고객의 태도나 심리적 특성을 측정하며 여론조사, 서베이 등을 통해 수집된 데이터
- 소수의 고객으로부터 수집
- 세분화 또는 통계적 기법을 이용하여 군집화된 훨씬 많은 수의 고객 세그먼트에 적용
- 개별 고객단위의 정확한 데이터 수집이 어려움
데이터 웨어하우스
기업의 의사결정 과정을 지원하기 위한 주제 중심적이고 통합적이며 시간성을 가지는 비휘발성 자료의 집합주제
- 지향성
- 시계열성(일정 기간 동안 정확성 유지)
- 통합성
- 비휘발성
데이터 마트
하나의 데이터마이닝 주제 또는 고객 분석을 위해 통합된 데이터로 구성된 일시적/보조적인 데이터 저장소
- 특정한 목적의 사용자 그룹을 위해 특정 주제영역의 데이터들로 만들어짐
메타데이터
데이터에 대한 데이터
- 데이터 원천, 수집 경로, 규칙, 갱신 날짜 등 데이터에 대한 기술적 및 업무적인 내용
- 데이터 관리를 위해 매우 상세하고 이해하기 쉽게 작성되어야 함
728x90