(NeurIPS 2019) Tutorial - Machine Learning for Computational Biology and Health

Machine Learning 하는 사람들이 '우리가 너희 필드를 바꿔줄게’라고 하지만 실질적으로는 이 분야의 전문가들이 데이터 수집부터 문제 정의, QC 등에 대해 세밀하게 참여해야 된다.

머신러닝 프로세스랑 안맞는 부분이 있다. 가설 세우고 실험하고, 다시 가설세우고 실험하는 머신러닝 프로세스를 적용하지 못할 수도 있다.

유전체 연구

4300건(16만건의 연관)의 논문이 발표되었으나, 아직 유전 정보가 미치는 영향에 대해 정확하게 이해하지 못하고 있다.

유전 정보로 질병에 대해 미리 예측할 수 있다면, 굉장히 많은 위험을 줄일 수 있다.


EpiGenetics (후생유전학)



2012년~ HMM, Bayesian Network 등으로 의미있는 genomic region을 찾아내거나 함.
이후에 딥러닝이 좀 적용되고 있음. 모델 공개가 되어 있어서 연구자들이 활용을 많이 하고 있음.

여전히 이해하지 못한 부분들 : What does normal variation look like? / What happens to the cell state at disease onset? / Why do some marks persist and others do not? / Which epigenetic marks are functional, and which are just memories?

Transcriptomics (전사체학)

Cell State를 통한 질병 예측. RNA 정보는 cell state에 대한 proxy 정보.
시간이 지나면서 scRNA-sequencing 등 최신 방법에서는 1백만 이상의 셀 정보를 연구.
데이터 : Cell \times Gene Matrix

셀 타입을 구분해나는 몇몇 모델들이 있는 것 같다(eg. Tsne처럼 two dimension으로 여러 셀 타입을 내리는 알고리즘)

  1. Zero-inflated Factor analysis(ZIFA)
  2. Single Cell Variational Inference(scVI)
  3. T-distributed Gaussian process latent variable model

Spatial Sequencing 이 좀 유망하다

  • 지역적으로 어떤 셀들이 있는지를 분석. 지역적 정보를 통해 셀들의 ‘환경적인’ 영향들을 분석할 수 있다고 생각함.
  • 대표적으로는 seqFISH+ 등이 있음.

Proteomics

  • DNA -> RNA -> Protein 로 발현됨.
  • Protein의 역할을 직접 추정하자.
  • Protein을 Peptide단위로 쪼개서 Sequence를 분석하는 방법이 있음. Spectra Matching 문제로 풀기도 함. (Prosit, Gessulat et al, 2019)

  • Fold it(http://fold.it/portal)
    • Game for predicting protein structures
    • Crowd-Annotation
  • viSNE
  • 최근에는 protein function을 예측하는 연구를 많이 한다고 함. 1천3백만 protein sequence 데이터가 있고, 1/3이 annotate되어 있음.
    • 기존에는 similar protein은 비슷한 기능을 할거라고 생각 - k-NN 같은 걸로 접근.
    • 최근에는 CNN, Embedding NN 등을 활용.
  • Protein-protein interactions : 아직 시도 중인 영역.

Microbiome

Clinical Data : EHR

  • Sparse, noisy, Heterogeneous, Biased.
  • Sample 수는 많고, Feature는 상대적으로 적은 문제.
  • Eg1 : Hospital Patient over 50 days, 4 vital signs, 20 lab tests.
  • Eg2 : Lung disease trajectory in scleroderma patients(Schulam et al, 2015)
    • Able to predict sepsis 36 hours earlier on average.
  • Eg3 : Predicting Cardiac Arrest(Tonekaboni et al. 2018)
    • 70% accuracy, 5-15 minute before cardiac arrest
  • Eg4 : Early sepsis detection
  • 예제가 많고, 구체적이서 실질적으로 현재 적용가능한 영역처럼 느껴졌음.

ML in Diabetic Retinopathy

  • predict diabetic retinopathy and diabetic macular edema
  • 인도에서 이미 상용화

ML in dermatology

Survival Analysis

발표는 Skip 되었으나 실용적으로 느껴지는 영역. 여러 의사의 종합적인 의견보다도 분석적으로 하는 방식이 좀 더 서바이벌을 오래하게 했다는 통계적 분석도 있다고 함.

기타 요약

ML Challenges in Medicine



  • 이미 존재하는 Bias를 제거하는 것이 중요할 수 있다.
  • Context가 존재하는 decision들이 있을 수 있다.
  • Sensitive to Noise
  • “Are we learning about disease or artifcats?” (Zech et al)
  • High false positive rate : accuracy 관점에서는 좋아도 false positive 비율에 따라 impractical 해질 수 있다.
  • Explainability : 클리니컬한 생각과 모델의 프리딕션이 함께 사용되어야 한다.
  • Biases in miomedical ML : Stratifying training data is important.

Summary