Bioinformatics/Biomedical Data Science

[Biomedical Data Science] - 5. 정형 데이터마이닝

JOFTWARE 2021. 6. 18. 14:39

[Biomedical Data Science] - 5. 정형 데이터마이닝

 

주요 데이터마이닝 기법

정형데이터 분석

  • 연관관계분석 기법
  • 의사결정나무
  • 인공신경망 기법
  • 사례기반추론
  • 군집분석 기법

 

비정형데이터 분석

  • 텍스트마이닝
  • 웹마이닝
  • 오피니언마이닝
  • 소셜네트워크 분석

 

정형데이터마이닝 기법

연관관계분석

상품 혹은 서비스 간의 관계를 살펴보고 이로부터 유용한 규칙을 찾아내고자 할 때 이용될 수 있는 기법
  • 두 항목 간 그룹 사이에 강한 연관이 존재하는지에 대한 기술
  • 사건 또는 품목 간에 일어나는 연관성을 찾아내는 것
  • 요소간의 연관성 패턴 분석 가능 -> 장바구니 분석을 통한 상품 추천이나 상품 진열 등에 유용하게 사용
  • 이해하기 쉽고 명쾌한 특성을 지니며 실질적인 정보 도출 가능
  • 마케팅 문제 뿐만 아니라 광범위한 의사 결정을 하는데 널리 사용
  • 연관관계 기법의 세 가지 기준
    • 지지도(전체 거래 중에서 어떠한 항목과 다른 항목 사이에 동시에 포함하는 거래의 빈도)
    • 신뢰도(X가 포함된 트랜잭션 중에서 X와 Y가 동시에 포함된 트랜잭션의 비율, X->Y)
    • 향상도(=Lift, X 상품을 구매한 경우 그 거래가 다른 Y 상품을 포함하는 경우와 Y 상품이 X와 상관없이 단독으로 구매된 경우의 비율) P(Y|X)/P(Y)
      • Lift>1: 양의 상관관계(보완재)
      • Lift=1: 상호 독립적
      • Lift<1: 음의 상관관계(대체재)

 

의사결정나무

목표변수에 대한 의사결정 규칙들을 나무구조로 그래프화하여 분류와 예측을 수행하는 기법
  • 데이터마이닝의 주요 기법 중 하나로써 분류 및 예측에 주로 사용되는 기법
  • 각종 데이터로부터 규칙을 도출하는데 매우 유용
  • 다른 통계 기반 기법에 비해 분석 결과의 해석이 쉽고 어떠한 변수들이 분류에 중요한 영향을 미치는지 설명 가능
  • 변수들 간 상호작용에 대한 해석 용이
  • 주요 변수의 선정 용이(중요한 변수만 선별)
  • 교호효과의 해석(두 개 이상의 변수가 결합하여 목표 변수에 어떻게 영향을 주는지 쉽게 알 수 있음)
  • 비모수적 모형(모수에 대한 가정을 전제로 하지 않고 모집단의 형태와 관계 없이 주어진 데이터에서 직접 확률을 계산하여 통계적으로 검정하는 분석 방법)
  • 의사결정나무를 툴로 자동 변환이 가능하며 이 툴은 다양한 활용이 가능
  • 비연속성(분리 경계점 근방에서 예측 오류 큼)
  • 선형 또는 주 효과 모형에서 결과를 얻기 쉽지 않음
  • 비안정성(분석용 자료에만 의존하기 때문에 새로운 자료의 예측에서는 불안정할 가능성이 높음)
  • 분석 단계
    • 의사결정나무의 형성: 적절한 분류 기준과 규칙 지정
    • 가지치기: 부적절한 가지 제거
    • 타당성 평가: 교차 타당성 이용해서 평가
    • 해석 및 예측: 의사결정나무를 해석하고 예측 모형 설정
  • 활용 사례
    • 고객 분류
    • 기업의 부도 예측
    • 주가/경제 전망 예측

 

 

인공신경망

생물학적 뇌의 원리를 모방하여 데이터 안의 독특한 패턴이나 구조를 인지하는데 필요한 모델을 구축하는 기법
  • 가장 일반적인 인공신경망 모형으로 다계층 페셉트론 모형이 있음
    (입력층에서 은닉층, 은닉층에서 출력층으로 각 뉴런이 서로 연결되어 있는 것이 특징)
  • 복잡하고 비선형적이며 관계성을 갖는 다변량 분석 가능

 

장점

  • 회귀분석과 같은 선형기법과 비교하여 비선형기법으로서의 예측력이 뛰어남
  • 자료에 대한 통계적 분석 없이 결정 수행 가능
  • 통계적 기본 가정이 적고 유연하여 다양하게 활용됨
  • 데이터 사이즈가 작을 경우 불완전 데이터, 노이즈 데이터가 많은 경우 일반적으로 다른 기법과 비교해서 우수하다고 평가됨

 

단점

  • 모델이 제시하는 결과에 대해 원인을 명쾌하게 설명할 수 없음
  • 모델 학습에 시간이 많이 듦
  • 전체적인 관점에서희 최적해가 아닌 지역 내 최적해가 선택될 수 있음
  • 과적합화(Overfitting)의 가능성

 

사례기반추론

과거에 있었던 사례들의 결과를 바탕으로 새로운 사례의 결과를 예측하는 기법
  • 과거에 발생한 문제는 미래에 다시 비슷한 형태의 문제로 발생할 가능성이 높음
  • 제안된 해결책은 필요에 따라 적절히 수정된 후에 주어진 문제를 풀기 위해 재사용됨
  • 이렇게 해결된 새로운 사례는 추후 다른 문제에도 도움이 될 수 있도록 새로운 사례로 사례기반에 저장됨

검색 -> 재사용 -> 수정 -> 유지

 

장점

  • 인간의 문제 해결방식과 유사->결과 이해 쉬움
  • 새로운 사례를 단순히 저장하는 것만으로도 추가적 작업 없이 학습이 진행됨
  • 구조가 간단하고 이해가 용이
  • 수치형/범주형 변수 모두 사용 가능
  • 복잡한 문제를 비교적 적은 정보로 해결 가능

 

단점

  • 전통적인 사례기반추론일 경우 타 인공지능 기법/데이터마이닝 기법에 비해 정확도가 크게 떨어짐
  • 사례를 저장하기 위한 공간이 많이 필요
  • 일반화를 위한 학습 과정과 해결이 동시에 일어나기 때문에 많은 시간 소요
  • 사례를 설명하고 있는 속성이 적절하지 못한 경우 성능이 크게 저하됨

 

사례

고장 진단 헬프 데스크, 전략 수집, 유비쿼터스 컴퓨팅 시스템의 상황 인식 기능, 개인화 서비스 구현

 

군집분석기법

유사한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집을 찾아내는 분류 방법
  • 전체 데이터를 군집을 통해 잘 구분하는 것으로 다양한 특징을 가진 관찰 대상으로부터 동일 집단으로 분류하는데 사용
  • 유사한 특성을 가진 개체를 합쳐가며 최종적으로 유사 특성의 군집을 찾아내는 분류 방법
  • 구분하려고 하는 각 군집에 대한 아무런 사전 지식이 없는 상태에서 분류하는 것이므로 무감독 학습에 해당

 

절차

  1. 연구문제/분석대상 및 변수의 선정
  2. 유사성 측정 방법의 결정(거리 척도) -> 보통 유사성보다는 비유사성을 기준으로 하는 '거리' 측정
  3. 군집화 방법의 결정: 계층적 군집화/비계층적 군집화
  4. 군집의 해석 및 특성 파악

 

계층적 군집분석

단일결합법(최단거리 기준), 완전결합법(최장거리 기준), 평균결합법(평균거리 기준)

 

비계층적 군집분석

사전에 정해진 군집의 수에 따라 대상들이 군집에 할당되는 분석(군집의 중심에 가까운 개체를 하나씩 포함해 나감)

K-means: 군집 씨앗을 중심으로 군집화가 진행됨에 따라 중심점이 달라짐.

 

728x90