Deg

    머신러닝을 이용한 DEG 분석

    DEG by Machine Learning 데이터를 사용하여 기계학습 모델을 학습시키고 기계학습 모델에서 중요하게 사용된 특성(feature)에 대해 특성 중요도(feature importance)를 계산 => 특성 중요도(feature importance)를 기준으로 DEG 선정 Decision Tree Random Forest Generation Random Forest Prediction Feature Importance 실습 코드 import pandas as pd data=pd.read_csv("LUAD.txt",delimiter="\t",skiprows=lambda x: x == 1,index_col=0) lst_labels = [] for col in data.columns: # if col..

    통계적 방법에 따른 DEG 분석 (R)

    DEG by Statistical test 유전자 발현 데이터를 사용하여 표본 통계량(평균, 표준편차 등)을 구함 표본 통계량을 통해 모집단의 분포를 가정 실험/대조군의 차이를 유의확률(p-value)로 나타냄 일반적으로 p-value 극단적인 값이 나올 확률이 적다. p-value가 작을수록 현재 관찰한 값이 극단적이라는 얘기(차이가 크다) P-value에 대해 좀 더 자세한 내용은 아래 블로그 참고 p-value의 의미 - 공돌이의 수학정리노트 angeloyeo.github.io P-value and Empirical Testing of Differential Expression Normal cell: 1, 2, 2, 2, 3 Cancer cell: 2.5 인 경우를 가정해보자. Empirical p..

    Fold change에 따른 DEG 분석(Python)

    바이오마커 표현형(phenotype)의 표지/원인이 되는 유전자 질병의 진단, 치료 등에 활용 차별적 발현 유전자(DEG, Differentially Expressed Genes) RNA 데이터에서 차별적 발현 유전자(DEG) 검출 분석 과발현 : 실험군(e.g. 폐암환자군)에서 이상적으로 양이 많이 발현 되어 있는 유전자 저발현 : 실험군(e.g. 폐암환자군)에서 이상적으로 양이 적게 발현 되어 있는 유전자 차별적 발현 유전자는 꼭 바이오마커라고는 볼 수 없지만 바이오마커의 후보라고 볼 수 있음 DEG를 찾아내는 3가지 방법 Fold Change(계산이 단순, 간단하게 분석하고 싶을 때, 옛날에 많이 썼음, 학술적이지 않다는 의견) P-value(Statistics, 통계학적 접근) Machine Le..

    바이오마커 유전자 분석

    RNA-seq 데이터 생성 예시 유전자 발현량 데이터 예시 가로축: TCGA 환자 ID 세로축: 유전자 ID ?|8225 -> 과발현(Up-DEG) ?|90288 -> 저발현(Down-DEG) DEG(Differentially Expressed Gene): 정상인에 비해 양의 차이가 있는 Gene 문자화된이름|숫자화된이름 : 문자: 유전자의 기능을 발견한 사람이 그 기능을 바탕으로 이름을 붙인 Fullname의 축약어 숫자: 문자 이름만으로는 명확히 구분하기 어렵기 때문에 숫자로 numbering을 한 것 TCGA 환자 ID 명명 규칙 Sample: 암세포인지 정상세포인지 01: Primary Solid Tumor 02: Recurrent Solid Tumor 10: Blood Derived Normal..