TCGA 데이터
Bioinformatics

TCGA 데이터

TCGA (The Cancer Genome Atlas)

에 관한 유전변이 데이터를 통합 축적하고, 생물정보 분석하고자 하는 목적으로 2005년에 시작된 대규모 프로젝트

  • 미국 NCI(National Cancer Institute)와 NHGRI(National Human Genome Research Institute)에서 운영 관리
  • 유전자 지도를 완성하고 나서 가장 궁금했을 법한 암에 관한 정보를 알아내어 암을 정복하고자 하는 목표로 시작
  • Human Genome: 1명의 Genome 완성
  • GWAS(1000 Genome Project): 1000명의 Genome 분석 및 비교 조사
  • 33 종류의 전사적 암에 대해 조사(전체 11,000명의 환자)

7종류의 유전체 데이터 타입에 대한 전사적 조사 (Multi-Omics: 멀티 데이터 타입)

- 전체 데이터 사이즈 = 2.5 peta bytes = 2,500 tera bytes = 2,500,000 giga bytes

  • DNA 관련: Mutation(돌연변이), Copy number(유전자가 DNA안에 여러 copy가 있는 경우가 있음) 
  • RNA 관련: Gene Expression, MicroRNA
  • 프로틴 관련: RPPA

Raw data(Level 1) 및 표준화된 정형 데이터(Level 3)를 제공함

- Level 1, 2의 경우 별도의 접근 권한을 허가 받아야 함

1: Short read Data(FASTA File)

2: Mapping한 Data(Alignment Data)

3. 테이블 형태로 정리된 데이터(Count Data/Gene Expression Data, 주로 많이 씀)

4. 조금 더 가공된 데이터

 

RAN-seq analysis workflow

728x90

'Bioinformatics' 카테고리의 다른 글

Fold change에 따른 DEG 분석(Python)  (0) 2021.08.25
바이오마커 유전자 분석  (0) 2021.08.24
유전체 시퀀싱 분석  (0) 2021.08.24
정보의학개론 - 의료정보학 개요  (0) 2021.08.23
Biopython 설치  (0) 2021.02.16