유전체 시퀀싱 분석
바이오마커
- 표현형(phenotype)의 표지가 되는 생물학적 요인(사람들이 암, 당뇨 혹은 면역질환에 걸렸을 때 찾고자 하는 원인)
- -> 치료에 이용할 수 있음
- 돌연변이 유전자, 항원/항체 등
- 질병의 진단, 치료 등에 활용
예전에는 가설 기반 실험 위주였는데, 요즘은 Data-driven 생물학.
경험이나 직관이 아닌 데이터 모으고 분석함. (바이오마커 Candidate로 삼고 실험 후 바이오마커를 찾아냄)
생체 시스템의 계층적 구조와 데이터
유전자 데이터 -> 세포 내 분자 단위의 가장 정밀한 바이오마커 정보를 포함
고배열 현미경 데이터
X-ray, CT 데이터
혈당, 간수치 데이터
신체 데이터: 안색, 외관, 맥박, 혈압 등
Central Dogma
세포 분자 데이터의 핵심 원리
세포라는 시스템이 어떻게 동작하는가?
유전자(gene): 단백질 하나를 만들어 낼 수 있는 설계 단위
DNA: 단백질을 만드는 설계 정보, 핵(nucleous)안에서 보호됨, 원본이라고 할 수 있으며 변경이 되면 안됨
RNA: DNA의 정보를 Protein 합성을 위해 전달함(정보 전달 매개체, mRNA)
Protein: RNA의 정보에 따라 합성됨, 생물학적 기능을 수행하는 주체, 20 종류의 아미노산으로 이루어져 있음, 3D 구조
DNA: Genome(A long Sequence), ATGC가 길게 이어진 실타래
Transcriptome(Total cell of RNA): 유의미한 정보를 담고 있는 DNA의 특정 조각들의 모음
Sequencing Technologies
염기서열 정보를 읽어내는 기술
- Sanger sequencing
- Microarray
- NGS (Next Generation Sequencing)
염기 서열 정보를 분석하기 위해 Bio informatics 라는 학문 분야가 생겨났다고 볼 수 있음.
Sanger Sequencing
- 염기 서열의 일부를 떼어낸 뒤 프라이머를 붙임
- 합성되는 위치(길이)가 각각 다름
- 질량 순으로 분석
- 특정 위치에 대한 ATCG 정보를 알아낼 수 있음
Reference Genome
인류 표준 지놈
2000년도 쯤 지놈프로젝트로 인류의 sequencing 정보를 알아낼 수 있게 됨
사람마다 염기 서열의 정보는 99.9%가 동일하고 극히 일부가 다름
사람마다 다른 부분을 비교하기 위해 참고하려고 만든 것이 Reference Genome (평균 지놈)
FASTA file
염기서열 시퀀스를 저장하는 파일 형식 (e.g. human_reference_genome.fasta)
첫줄 > 시퀀스에 대한 정보
차세대 시퀀싱(Next Genearation Sequencing, NGS)
긴 DNA(or RNA)를 짧은 조각(short read)로 자르고, 병렬적으로 시퀀싱하여 빠르고 대량으로 시퀀싱하는 기술
기존의 방식은 손이 많이 가서(노가다) 지나치게 느리다고 비용도 많이 든다는 단점이 있었음 -> 이를 비약적으로 향상
* Illumina: 차세대 시퀀싱 원 탑 회사
Single cell sequencing
(vs Bulk sequencing)
하나의 세포만 선택하여 시퀀싱 하는 기술
Bulk sequencing은 예전엔 어쩔 수 없었다 (Sequencing을 돌리려면 어느 정도 충분한 양이 필요했음)
기술이 발전함에 따라 세포 하나만 가지고도 complete한 정보를 얻을 수 있게 되었음
시퀀싱 기술을 이용한 바이오마커 유전자 분석
(바이오 마커 유전자: 표현형을 유발하는 문제적 유전자)
DNA -> 돌연변이(Mutation) 서열이 있는 유전자 검출
- Somatic mutation : 후천적 변이 (e.g. 암)
- Germline mutation : 선천적 변이 (e.g. 유전병)
RNA -> 과발현/저발현 유전자 검출
- 과발현 : 실험군(e.g. 폐암환자군)에서 이상적으로 양이 많이 발현 되어 있는 유전자
- 저발현 : 실험군(e.g. 폐암환자군)에서 이상적으로 양이 적게 발현 되어 있는 유전자
DNA 분석 - Variant Calling
개인의 변이 서열(바이오마커)을 찾아냄
Mapping(Alignment): Short read 정보를 가지고 원래 어느 위치에 있었는지 알아내는 과정(1/4^200)
RNA 분석 - Gene Expression
개인의 유전자 활성화를 조사함
Intron(Intergenic) 쪽에는 mapping을 해봐도 거의 안붙음
몇 개가 붙어있느냐가 중요함. 얼마나 많이 copy가 되어있는가(=얼마나 활성화되어있는가)를 알 수 있기 때문
실험/대조군 기반의 유전체 바이오 마커 검출 분석 과정