【醫療AI】人工智慧與機器學習在基因體學的發展

Deepmind 團隊於2020 年再次利用人工智慧,破解了蛋白質結構預測技術的聖杯


曾經開發出 Alpha Go 成功挑戰圍棋界菁英的 Deepmind 團隊,2020 年又再次利用人工智慧,破解了蛋白質結構預測技術的聖杯,利用資料庫中 17 萬種已知蛋白質的結構和 6 千萬筆胺基酸序列訓練出「AlphaFold2」,成功預測三分之二的蛋白質三級結構,是當年最高準確率的團隊,進一步破解困惑科學家們五十多年來的謎團。


生醫科技與基因體學由於存在大量難以人工處理的資料,一直是最適合發展人工智慧的領域之一。


人類的 DNA 為雙股螺旋結構,中間只以四種不同化學結構的鹼基組成,也就是腺嘌呤adenine(A)、胸腺嘧啶thymine(T)、胞嘧啶cytosine(C)、鳥嘌呤guanine(G),重複出現的ATCG,就有如電腦中的0與1一樣。每三個鹼基又可成為一組密碼子,以對應到轉譯後的特定蛋白質,供人體身上所有的細胞使用。


在出現「AlphaFold2」 之前,人類無法系統性地研究人體中各種蛋白質的三級結構,研究一種蛋白質的結構可能需要花上六個月以上的時間。如今人工智慧可能只需要幾分鐘的時間就能準確預測,大幅縮短了科學家進行驗證的時間。


人工智慧成功協助科學家預測蛋白質結構。

人工智慧成功協助科學家預測蛋白質結構。


基因體學研究 + 人工智慧為精準醫學鋪路

根據人類基因體計畫(Human Genome Project)的預估,人體 23 對染色體中,所有DNA的序列總共約由 31.647 億個鹼基對所組成。這完全是為人工智慧量身打造的領域。人工智慧需要龐大的資料庫,來訓練模型與測試;人工智慧也相當擅長在大量資料中利用非監督式學習,看出資料中所隱含的重要規律;搭配成本日益降低的雲端運算資源,許多曠日廢時的問題都能在非常短的時間獲得解答。


這樣的基礎研究,也間接影響了商機龐大的製藥業。一旦科學家能夠更加快速地了解蛋白質在人體內的折疊形狀,就能推測這個蛋白質如何與其他分子互動、潛在的藥物分子可以如何與蛋白質結合,大幅加快新藥開發的速度,也就能夠降低藥物成本,讓更多患者能夠更快地接受治療。


Nanopore 結合人工智慧,加速基因定序

Nanopore 結合人工智慧,加速基因定序。


人工智慧加快第三代基因定序的速度

除了能夠預測蛋白質結構、加速並降低藥物開發的成本之外,人工智慧搭配具備高效能運算(HPC) 能力的硬體後,就能大幅增加第三代基因定序 Nanopore 技術的解析速度。Nanopore 是由英國牛津大學教授 Hagan Bayley 所建立的基因定序技術平台,Nanopore 公司開發了可隨身攜帶的定序儀 MinION,讓許多過去從未接觸定序科技的科學家們,也能夠將定序科技導入原本的研究工作。


MinION 在分析基因序列的時候,會連結到搭載 NVIDIA AGX 人工智慧技術的手持式設備。當鹼基通過奈米孔時,會由人工智慧協助進行判定(basecalling)。這是非常適合循環神經網路(RNN)來處理的問題。跟過去的舊方法相比,RNN 可以產生出更準確的時間序列資料,這也是 Oxford Nanopore 的定序儀,大受科學家喜愛的理由。


有了人工智慧與可攜帶式的定序儀器,科學家幾乎可以在世界的任何一個角落獨立進行基因分析。比起過去需要超級電腦才能做到的研究,現在僅需用不到800美金左右的設備就能用更快的速度,破解人類基因,並將這些成果應用於疾病預測和預防。


了解 Deepmind 如何運用人工智慧,破解蛋白質折疊的難題,對蛋白質三級結構做出預測:AlphaFold: The making of a scientific breakthrough


【參考文獻】

Infinities
Infinities

數位無限軟體(InfinitiesSoft)專注於為企業解決虛擬化、容器化、微服務、邊緣運算、混合雲管理、異質IT環境與人工智慧帶來的挑戰,整合異質雲管與熱門的開源AI深度學習架構和開發工具環境,提供一站購足的AI機器學習雲平台方案AI-Stack。

相關文章