ケンブリッジ大学が神経変性病の遺伝情報を自然言語モデルで解析できることを発表!

ケンブリッジ大学が神経変性病の遺伝情報を自然言語モデルで解析できることを発表!

はじめに
 ケンブリッジ大学の研究チームが、癌やアルツハイマーなどに代表される神経変性病の生体的言語(遺伝情報などのこと)を機械学習を用いて解析できることを明らかにしました。

〇大学公式HP
Artificial Intelligence could ‘crack the language of cancer and Alzheimer’s’
https://www.joh.cam.ac.uk/artificial-intelligence-could-crack-language-cancer-and-alzheimers

〇論文
Learning the molecular grammar of protein condensates from sequence determinants and embeddings
https://www.pnas.org/content/118/15/e2019053118

概要

 癌やアルツハイマーなどは、細胞が正しく生成されないことで生じる病気です。正しく生成されない理由は遺伝情報が誤って複製されることにあるとされています。そのため、治療方法に、病気の原因となる細胞内の文法上の誤りを修正するというものがあります。今回研究チームは、大規模な言語モデルを訓練して、体内のタンパク質に問題が発生して病気を引き起こしたときに何が起こるかを調べました。優良な結果が得られ、今後の研究方向として機械学習の利用が有望であることを明らかにしました。

詳細

 体には何千ものタンパク質があり、現在の科学ではそれらの多くの機能をまだ解明できていません。今回研究チームは、タンパク質を明らかにするために、ニューラルネットワークベースの言語モデルにタンパク質の「言語(遺伝情報)」を学習させました。
 具体的には、アルツハイマー病のような癌や神経変性疾患を引き起こす生物学的機能や機能不全の「言語(遺伝情報)」を解読するために、形状変化する生体分子凝縮体(細胞に見られるタンパク質の液滴)の「言語(遺伝情報)」を学ぶようにモデルを学習させました。結果として、何十年にもわたる研究でタンパク質の「言語(遺伝情報)」についてすでに発見したことを、学ぶことができることがわかりました。

実験

 実験では、既知のタンパク質に保持されているすべてのデータをアルゴリズムに入力して、これらのモデルが人間の言語について学習するのと同じ方法でタンパク質の言語を学習および予測できるようにしました。一部のタンパク質のみが細胞内で凝縮物を形成する特定の文法について質問することができることも明らかになりました。

アルツハイマー病と自然言語処理について

 アルツハイマー病では、タンパク質が不正になり、凝集塊を形成し、健康な神経細胞を殺します。健康な脳には、凝集体として知られるこれらの潜在的に危険なタンパク質の塊を効果的に処分する品質管理システムがあります。科学者たちは現在、一部の無秩序なタンパク質は、膜を持たず、互いに自由に融合する凝縮物と呼ばれるタンパク質の液体のような液滴を形成すると考えています。不可逆的なタンパク質凝集体とは異なり、タンパク質凝縮物は形成および再形成することができるとされています。

 タンパク質凝縮物は、遺伝子発現(DNAがタンパク質に変換される方法)やタンパク質合成(細胞がタンパク質を作る方法)など、細胞内の重要​​なイベントを制御するため、最近科学界で大きな注目を集めています。これらのタンパク質液滴に関連する欠陥は、癌などの病気につながる可能性があります。そのため、タンパク質の機能不全の分子起源の研究に自然言語処理技術を導入することで、病気の原因となる細胞内の文法上の誤りを修正できるようになると考えられています。

まとめ

 遺伝情報を自然言語処理と同様のアプローチで解決しようとするのは、領域横断的なアプローチといえます。現在、医療分野と自然言語処理の専門家は非常に離れたところで活動していますが、今後両者の結びつきが強まり、研究が盛んになることが望まれます。