Bioinformatics

희귀질환 환자 진단 및 치료제 개발을 위한 인공지능의 활용 방안

  • 유전체 데이터 기반 진단 시스템 개요
  • AI 기반 유전 변이 해석 시스템 (3Cnet, EVIDENCE)
  • 희귀질환 치료제 개발을 위한 유전체 데이터 활용

유전체 데이터

  • Genomic data
  • 일반인 혹은 환자 개개인의 유전 정보의 총체
  • DNA 서열 뿐만 아니라 질병 증상 정보 등을 포함
  • 유전자 검사를 통해 얻어지는 데이터

인간 유전체 (chromosome) 의 개수 = 44 + XY 유전자(gene) 의 개수 21,000 염기쌍(ACGT) 의 개수 약 33억

어떤 유전 변이는 질병을 유발하거나 위험성을 높임.

유전자 검사의 종류

희귀질환과 유전질환의 관계

  • Monogenic disease vs. Polygenic disease

    유전질환(genetic disease)이라 함은 개인의 유전자(gene, 또는 genome)의 이상 또는 다형(abnormality or polymorphism)에 의하여 일어나는 질환으로 정의할 수 있다.

    그렇다면 유전 성향이 있는 모든 질환이 위에서 설명한 것과 같은 유전자-환경의 영향을 받는 것일까? 그렇지 않다. 보통 질병관련 유전자라고 하면 하나의 유전자에 의하여 관련 질환이 생기고 생기지 않는 상황을 생각하는 것이 일반적이다. 그러나 이러한 개념은 소위 monogenic disease에 해당하는 것이다. 이런 질환은 환경의 영향이 적으며 특정 유전자의 결함이 있으면 해당 질환은 반드시 나타난다. 이와 같이 단일 유전자의 mutation에 의한 질환은 Mendelian character를 가진 유전질환(질환 발생에 있어 멘델법칙을 따르기 때문)라 하며 실제 인간에서 밝혀진 monogenic disease는 이미 6,000 종류 이상이며 예로는 Gaucher's Disease, cystic fibrosis, sickle cell anemia, Marfan syndrome, Huntington's disease, hemochromatosis 등이 있다.

    그러나 이와는 달리 최근 SNP를 수단으로 한 질병유전자 연구는 다수의 유전자(multigene)와 환경의 복합 작용에 의하여 일어나는 질병(multifactorial)에 집중되고 있는데 대표적으로는 당뇨, 천식, 고혈압, 골다공증, 치매, 암, 비만 등을 들 수 있다. 이러한 질환은 common complex trait disease(또는 multifactorial disease)라고도 일컬어지는데 말 그대로 하나가 아닌 다수의 유전자가 관여되며 환경적인 요인도 필수적으로 영향을 미치는 질환이라는 의미이다. 또한 각 유전성 질환들은 각기 다른 유전적 fraction을 지닌다. 거의 환경적인 요인에만 좌우될 것 같은 교통사고 같은 것도 유전적인 소인(급한 성격, 성별 등등)이 관여한다고 할 수 있다.

희귀질환 관련 통계

희귀질환: 유병인구가 2만명 이하이거나 진단이 어려워 유병인구를 알 수 없는 질환

  • 약 7000 종의 질병
    • 이 중 80% 는 유전 질환
    • 60% 는 어렸을 때 발병
    • 매년 250 종의 희귀질환이 새로 발견
  • 각각이 희귀하지만 전체적으로는 흔함
    • 미국 전체 인구의 8%(2500 만명)이 희귀질환 환자
  • 진단에 걸리는 기간 평균 5~15 년
  • 5% 의 희귀질환만이 치료제가 존재함 (약 400 종)
  • 국내 보고된 희귀질환은 약 927종
  • 유전자 관련 (80%), 어린이 환자 (50%), 신경계 (70%)라는 경향성
  • 1/3이상의 환자가 5세 전에 사망
  • 가족발생 및 세대를 통한 재발
질병관리청 희귀질환 헬프라인
희귀질환전문정보를 제공해드리는 사이트입니다.
https://helpline.kdca.go.kr/cdchelp/index.jsp

진단 방랑 (Diagnostic Odyssey)

희귀질환자들이 병원을 이곳저곳 전전하는 상황

유전 질환 진단의 과정

유전 질환 진단의 과정에서 변이 해석 문제

변이 질병 유발 확률 (penetrance)

관련 형질을 발현하는 유전자의 특정 변이체를 가진 개인의 비율

Pathogenic: 병원성 Benign: 양성 Prevalence: 유병률

  • 베이지안 확률론으로 penetrance 를 계산하기 위해 각 질병별 다수의 데이터가 필요

AI 기반 유전 변이 해석 시스템

REVEL (2016)

  • 현재까지 가장 신뢰받는 변이 예측기
  • FATHMM, VEST, Polyphen, SIFT 등 여러 알고리즘의 ensemble
  • 사실상 FATHMM 과 VEST 가 주요한 역할
    • FATHMM : 진화적 보존 패턴 에 대한 수학적 분석
    • VEST : SNV 의 특징을 나타낸 85 가지 SNVBox feature (structure, position,

PrimateAI (2018)

  • D eveloped by Illumina
  • 최초로 변이 주변의 서열을 통해 병원성을 예측하고자 함
  • DANN 이후 성공적인 딥러닝 적용 사례(CNN)
  • 여전히 REVEL 등 random forest 모델에 비해 성능 낮음
  • Missense 변이에 대해서만 예측 가능

Missense 변이 하나의 뉴클레오타이드(nucleotide) 변이로 아미노산을 바꾸는 돌연변이 * 유전자의 서열이 바뀌는(nonsynonymous) 변이 중 83% 차지. * 단백질/세포/환자 몸 전체 수준에서 종합적으로 고려해 찾아야 함 * 환자의 다양한 미스센스 돌연변이 중 실제로 질병을 유발하는 돌연변이를 구분하는 것도 중요 ⇒ 질병의 원인이 되는 미스센스 돌연변이를 예측 및 진단하는 것은 쉽지 않고 많은 노력 필요

3Cnet approach(2021, 3Billion)

  • CNN 대신 LSTM, Transformer 활용 서열 인식에 우수한 성능
  • 50 AA --> 200 AA 단백질 folding 의 최대 길이
  • Missense 외의 non synonymous 변이들에 대한 예측 가능
  • 진화적 보존 정보를 이용한 가상 변이 학습으로 Overfitting 피하기
  • 실제 환자 유전체에서 질병 유발 변이를 잘 찾는지 평가
  • 가상유전변이 데이터를 생성해 학습 데이터를 늘림
  • 기존에 개발된 인공지능(AI) 모델(REVEL, VEST4, SIFT, PolyPhen, PrimateAI, CADD, FATHMM, DANN 등)에 비해 환자 질병 유발 유전변이를 찾아낼 확률이 2.2배 높음
  • 학계에서 인정되는 최고 성능의 REVEL을 앞서는 성능 달성

유전체 서열 정보의 데이터화

진화적 보존 정보의 데이터화

3Cnet 구조

유전체 서열 해석의 범주 확장

  • 더 다양한 변이 ,더 긴 서열을 해석
  • Transformer, BERT, GPT3 등 NLP 기술이 무서운 속도로 발전
  • 최신 NLP 기술을 이용한 유전체 서열 정보 해석

  • 단백질 구조 안정성 예측 (Stability)
  • 유전자 기능에 중요한 역할을 하는 영역 예측
  • 세포에서의 유전자 발현 (gene expression) 예측

AI를 통한 진단 효율의 획기적 증대

  • 임상적 실험적 증거 와 환자의 증상 까지 함께 고려했을 경우 환자 당 80% 확률로 5 개의 변이 중 원인 변이를 찾아낼 수 있음
  • 변이를 20개 까지 판별할 경우 95%의 환자에게서 질병 유발 변이와 그로 인한 질병을 특정 할 수 있음
  • 판별을 필요로 하는 변이의 수를 획기적으로 줄여 임상전문가의 진단에 소요되는 시간과 비용 감소
  • 동시에 진단률을 높임으로써 환자의 진단 방랑을 조기에 마무리 지을 수 있음

희귀질환 치료제 개발을 위한 유전체 데이터 활용

대부분의 희귀질환이 치료제가 없음

신약 개발의 새로운 트렌드: 희귀의약품 (Orphan drug)

희귀병을 치료할 때 쓰여 제약회사가 생산하기가 경제적으로 어려운 약

희귀의약품으로 정부 지정을 받으면, 정부 산하기관 심사 하에 재정 지원 받을 수 있음

환자의 변이는 표적 약물이 인체에 주는 영향과 같음

  • 변이(Variant)는 표적 저해(Target Inhibition)에 대한 생체 반응의 자연 모델
  • 환자의 변이를 이해하면 표적 저해제의 인체 영향을 실험 없이도 예측할 수 있음
    • Gain of Function(GoF)으로 인해 질환 발생

      ⇒ 약물의 효과적인 표적

    • Loss of Function(LoF)이 생명 활동에 지장 없음

      ⇒ 저해되더라도 부작용이 없는 안전한 표적

    • Loss of Function(LoF)로 인해 심각한 질환 발생

      ⇒ 약물이 결합하는 것을 피해야 할 위험한 표적

약물 후보 물질 생성 모델

안전성 검증 모델

728x90