BIOINFORMATICS

    의료데이터 활용을 위한 데이터 사이언스 캠프 합격

    보건복지부, 서울아산병원, 한국보건복지인력개발원이 주관하는 의료데이터 활용을 위한 데이터 사이언스 캠프 2 (중급 과정) 교육생으로 선발되었다. 기대가 많이 됩니다.

    바이오 마커 후보 유전자 사후분석(Gene Ontolohy)

    Gene Ontology(유전자 온톨로지, 유전자 단어 체계) Ontology 온톨로지는 일종의 용어를 정의하는 계약이라 할 수 있음. 즉, 각 사물에서 공통점을 찾아내고 이를 하나의 집합 또는 범주로 나타내기 위해 의미, 지식의 쓰임새 등을 분명하고 자세하게 설명하는 것을 말함. Gene Ontology의 목적 유전자 및 유전자 산물 속성에 대한 통제 어휘를 유지하고 발전시킨다. 유전자 및 유전자 산물에 주석을 달고, 주석 데이터를 통합하고 전파한다. 프로젝트에서 제공하는 데이터의 모든 측면을 쉽게 접근할 수 있는 도구를 제공한다. 예를 들어 충분한 분석을 통해 유전자 온톨로지를 사용하여 실험 데이터의 기능적 해석을 가능하게 한다. PIF4={ “red light signaling pathway”, “..

    머신러닝을 이용한 DEG 분석

    DEG by Machine Learning 데이터를 사용하여 기계학습 모델을 학습시키고 기계학습 모델에서 중요하게 사용된 특성(feature)에 대해 특성 중요도(feature importance)를 계산 => 특성 중요도(feature importance)를 기준으로 DEG 선정 Decision Tree Random Forest Generation Random Forest Prediction Feature Importance 실습 코드 import pandas as pd data=pd.read_csv("LUAD.txt",delimiter="\t",skiprows=lambda x: x == 1,index_col=0) lst_labels = [] for col in data.columns: # if col..

    통계적 방법에 따른 DEG 분석 (R)

    DEG by Statistical test 유전자 발현 데이터를 사용하여 표본 통계량(평균, 표준편차 등)을 구함 표본 통계량을 통해 모집단의 분포를 가정 실험/대조군의 차이를 유의확률(p-value)로 나타냄 일반적으로 p-value 극단적인 값이 나올 확률이 적다. p-value가 작을수록 현재 관찰한 값이 극단적이라는 얘기(차이가 크다) P-value에 대해 좀 더 자세한 내용은 아래 블로그 참고 p-value의 의미 - 공돌이의 수학정리노트 angeloyeo.github.io P-value and Empirical Testing of Differential Expression Normal cell: 1, 2, 2, 2, 3 Cancer cell: 2.5 인 경우를 가정해보자. Empirical p..

    Fold change에 따른 DEG 분석(Python)

    바이오마커 표현형(phenotype)의 표지/원인이 되는 유전자 질병의 진단, 치료 등에 활용 차별적 발현 유전자(DEG, Differentially Expressed Genes) RNA 데이터에서 차별적 발현 유전자(DEG) 검출 분석 과발현 : 실험군(e.g. 폐암환자군)에서 이상적으로 양이 많이 발현 되어 있는 유전자 저발현 : 실험군(e.g. 폐암환자군)에서 이상적으로 양이 적게 발현 되어 있는 유전자 차별적 발현 유전자는 꼭 바이오마커라고는 볼 수 없지만 바이오마커의 후보라고 볼 수 있음 DEG를 찾아내는 3가지 방법 Fold Change(계산이 단순, 간단하게 분석하고 싶을 때, 옛날에 많이 썼음, 학술적이지 않다는 의견) P-value(Statistics, 통계학적 접근) Machine Le..

    바이오마커 유전자 분석

    RNA-seq 데이터 생성 예시 유전자 발현량 데이터 예시 가로축: TCGA 환자 ID 세로축: 유전자 ID ?|8225 -> 과발현(Up-DEG) ?|90288 -> 저발현(Down-DEG) DEG(Differentially Expressed Gene): 정상인에 비해 양의 차이가 있는 Gene 문자화된이름|숫자화된이름 : 문자: 유전자의 기능을 발견한 사람이 그 기능을 바탕으로 이름을 붙인 Fullname의 축약어 숫자: 문자 이름만으로는 명확히 구분하기 어렵기 때문에 숫자로 numbering을 한 것 TCGA 환자 ID 명명 규칙 Sample: 암세포인지 정상세포인지 01: Primary Solid Tumor 02: Recurrent Solid Tumor 10: Blood Derived Normal..

    TCGA 데이터

    TCGA (The Cancer Genome Atlas) 암에 관한 유전변이 데이터를 통합 축적하고, 생물정보 분석하고자 하는 목적으로 2005년에 시작된 대규모 프로젝트 미국 NCI(National Cancer Institute)와 NHGRI(National Human Genome Research Institute)에서 운영 관리 유전자 지도를 완성하고 나서 가장 궁금했을 법한 암에 관한 정보를 알아내어 암을 정복하고자 하는 목표로 시작 Human Genome: 1명의 Genome 완성 GWAS(1000 Genome Project): 1000명의 Genome 분석 및 비교 조사 33 종류의 전사적 암에 대해 조사(전체 11,000명의 환자) 7종류의 유전체 데이터 타입에 대한 전사적 조사 (Multi-O..

    유전체 시퀀싱 분석

    바이오마커 표현형(phenotype)의 표지가 되는 생물학적 요인(사람들이 암, 당뇨 혹은 면역질환에 걸렸을 때 찾고자 하는 원인) -> 치료에 이용할 수 있음 돌연변이 유전자, 항원/항체 등 질병의 진단, 치료 등에 활용 예전에는 가설 기반 실험 위주였는데, 요즘은 Data-driven 생물학. 경험이나 직관이 아닌 데이터 모으고 분석함. (바이오마커 Candidate로 삼고 실험 후 바이오마커를 찾아냄) 생체 시스템의 계층적 구조와 데이터 유전자 데이터 -> 세포 내 분자 단위의 가장 정밀한 바이오마커 정보를 포함 고배열 현미경 데이터 X-ray, CT 데이터 혈당, 간수치 데이터 신체 데이터: 안색, 외관, 맥박, 혈압 등 Central Dogma 세포 분자 데이터의 핵심 원리 세포라는 시스템이 어..