ChatGPT に触発されて、Google DeepMind は 7100 万の遺伝子変異を予測します。 AIが人間の遺伝学を解読

ChatGPT に触発されて、Google DeepMind は 7100 万の遺伝子変異を予測します。 AIが人間の遺伝学を解読

タンパク質予測モデルAlphaFoldがAIの世界に津波のような波を起こした後、Alphaファミリーは新たなスターを迎えました。

本日、Google DeepMind は、7,100 万の「ミスセンス変異」を予測できる新しい AI モデル AlphaMissense をリリースしました。

具体的には、AlphaMissense によって予測に成功した 89% の「ミスセンス変異」のうち、57% が病原性で、32% が良性でした。

論文アドレス: https://www.science.org/doi/10.1126/science.adg7492

人間の専門家によって確認できる変異はわずか0.1%です。

研究者がそれらの潜在的な影響をよりよく理解できるようにするために、Google は数千万の「ミスセンス変異」の全カタログも公開しました。

病気の根本原因を発見することは、人類遺伝学における最大の課題の一つです。

ミスセンス変異は、ヒトのタンパク質の機能に影響を与え、嚢胞性線維症、鎌状赤血球貧血、癌などの疾患を引き起こす可能性がある遺伝子変異です。

AlphaMissense の誕生は、医療分野、特に遺伝学における AI の大きな可能性を示しています。

これは、遺伝的変異と疾患の関係を理解し​​、標的を絞った薬物治療を開発する上で大きな意義があります。

AlphaFoldに続き、AlphaMissenseも世界を変えるAIとなり、人類の遺伝学の難問を解決することが期待されています!

ミスセンス変異とは何ですか?

ミスセンス変異は、バイオメディカルや分子生物学の分野でタンパク質コード遺伝子を記述するために使用される遺伝子変異です。

DNA 内の 1 つの文字を置換すると、タンパク質内に異なるアミノ酸が生成される可能性があります。

DNA を言語として想像すると、1 つの文字を置き換えるだけで単語が変わり、文の意味が完全に変わる可能性があります。

この場合、DNA の変化はアミノ酸の変化につながり、タンパク質の機能に影響を及ぼす可能性があります。

平均的な人間は 9,000 以上のミスセンス変異を抱えています。

一般的に言えば、これらのミスセンス変異のほとんどは良性であり、人体にほとんど影響を及ぼしません。しかし、残りの少数は病原性があり、タンパク質の機能を深刻に破壊する可能性があります。

ミスセンス変異は、少数または単一のミスセンス変異が直接疾患を引き起こす可能性があるため、まれな遺伝性疾患の診断に使用できます。

これらは、多くの異なるタイプの遺伝子変異によって引き起こされる可能性のある 2 型糖尿病などの複雑な疾患を研究する上でも重要です。

したがって、ミスセンス変異を分類することは、どのタンパク質の変化が疾患を引き起こす可能性があるかを理解するための重要なステップです。

人間に出現した400万以上のミスセンス変異のうち、専門家によって病原性または良性であると分類されているのはわずか2%です。

これは、考えられるミスセンス変異7100万個のうちのわずか0.1%に過ぎません。

残りの突然変異は、その影響に関する実験データや臨床データが不足しているため、「意義不明の突然変異」に分類されました。

しかし、AlphaMissense により、この変異の影響についてこれまでで最も明確な画像が得られました。

AlphaMissense は、既知の疾患変異のデータベースで、90% の精度の閾値で 89% の変異を分類できます。

ChatGPTモデルにインスピレーションを得てAlphaFold上に構築

それで、AlphaMissense はどのように構築されるのでしょうか?

AlphaFold と AlphaFold 2 はリリース以来、アミノ酸配列から科学的に知られているほぼすべてのタンパク質の構造を予測しており、その数は 2 億を超えています。

これを受けて、Google の研究者は、タンパク質内の単一のアミノ酸を変化させるミスセンス変異の病原性を予測できる AlphaFold (以下、AF) をベースにしたモデルを採用しました。

簡単に言えば、AlphaMissense の全体的な動作原理は、アミノ酸配列を入力として受け取り、配列内の特定の位置で起こり得るすべての単一アミノ酸の変化の病原性を予測することです。

AlphaMissense モデルをトレーニングするには、次の 2 つの段階で実行する必要があります。

フェーズ1

AF に似たニューラル ネットワークをトレーニングします。このニューラル ネットワークは、ChatGPT のような大規模なモデルに触発されています。

多重配列アライメント (MSA) のランダム位置マスクでアミノ酸の同一性を予測することにより、単一鎖構造の予測とタンパク質言語モデリングが可能になります。

研究者らは、AF にいくつかの小さなアーキテクチャ変更を加え、タンパク質言語モデリングの損失重みを増加させながらも、AF と同等の構造予測性能を達成しました。

事前トレーニング後、マスクされた言語モデリング ヘッドは、MSA Transformer および Evolutionary Proportional Modeling (EMS) で行われるのと同様に、参照アミノ酸と代替アミノ酸の確率間の対数尤度比を計算することにより、変異効果の予測に使用できます。

これらのニューラル ネットワークは、タンパク質構造の予測と新しいタンパク質の設計に優れていることが証明されており、どの配列が妥当でどの配列がそうでないかをすでに知っているため、変異体の予測に特に役立ちます。

フェーズII

この段階で、研究者らはヒトタンパク質のモデルを微調整し、MSA の 2 行目の変異配列を設定し、変異病原性分類ターゲットを追加しました。

次に、PrimateAI メソッドに従って、人間と霊長類の集団におけるこのような突然変異に注釈を付けます。

一般的な突然変異は良性であると考えられ、これまでに見られなかった突然変異は病原性であると考えられています。

研究者らは、モデルが検証セット(遺伝子ごとに良性と病原性の変異体が同数存在する 2,526 個の ClinVar 変異体)に過剰適合し始めた時点でトレーニングを中止しました。

ただし、AlphaMissense は、変異後のタンパク質構造の変化や、タンパク質の安定性に対するその他の影響を予測しません。

代わりに、構造に関する AlphaFold の「直感」を使用して、病気の原因となる可能性のあるタンパク質の変異を特定します。

具体的には、関連するタンパク質配列データベースと変異の構造コンテキスト情報を使用して、0 から 1 の間の連続スコアを生成し、変異の病原性確率を近似的に評価します。

この連続スコアにより、ユーザーは精度要件に応じて、変異を病原性か良性かに分類するためのしきい値を選択できます。

AlphaMissense がヒトのミスセンス変異を分類する方法

実験的評価では、AlphaMissense は、そのようなデータに関する明示的なトレーニングを必要とせずに、幅広い遺伝的および実験的ベンチマークで最先端の予測を実現します。

AlphaMissense は、ClinVar からの変異体の分類において他の計算方法よりも優れた性能を発揮しました。 ClinVar は、人間の多様性と疾患の関係に関する公開データ アーカイブです。

AlphaMissense は、検査結果を予測する上で最も正確な方法でもあり、病原性を測定するさまざまな方法と一致していることを示唆しています。

AlphaMissenseはミスセンス変異の影響を予測する上で他の計算方法よりも優れている

AIが遺伝学を変える

1年前、Google DeepMindはAlphaFoldを使用して予測された2億個のタンパク質構造を公開しました。

この取り組みは、世界中の何百万人もの科学者の研究を加速させ、新たな発見への道を開きました。

現在、AlphaFold をベースにした AlphaMissense は、DNA の起源をたどることで、タンパク質に関する世界の理解をさらに深めています。

繰り返しになりますが、この研究を実用化する上で重要なステップは、科学界と協力することです。

Google DeepMind は Genomics England と協力して、AlphaMissense の予測が希少疾患の遺伝学の研究にどのように役立つかを検討してきました。

ゲノミクス・イングランドは、アルファミスセンスの調査結果を、既知のヒト突然変異の病原性に関して以前に収集されたデータと相互参照した。

評価結果は AlphaMissense の予測と一致しており、AlphaMissense の現実世界のベンチマークを提供します。

Google DeepMind はミスセンス変異の参照テーブルを公開し、19,000 種類以上のヒトタンパク質における 2 億 1,600 万通りのあらゆる単一アミノ酸配列置換に関する拡張予測を共有しました。

公開データには、各遺伝子の平均予測値も含まれています。これは、遺伝子の進化的制約の尺度に似ており、遺伝子が生物の生存にとってどれほど重要であるかを示します。

AlphaFoldによって予測された構造に重ね合わせたAlphaMissense予測の例

(赤 = 病原性があると予測、青 = 良性があると予測、灰色 = 不明)

左:βヘモグロビンサブユニット(HBBタンパク質)。このタンパク質の変異は鎌状赤血球貧血を引き起こす可能性があります。

右: 嚢胞性線維症膜コンダクタンス制御因子 (CFTR タンパク質)。このタンパク質の変異は嚢胞性線維症を引き起こす可能性があります。

さらに、Google DeepMind も EMBL-EBI と協力しました。 Ensembl 変異効果予測ツールにより、研究者は AlphaMissense の予測をより簡単に適用できるようになります。

近い将来、AlphaMissense はゲノミクスと生物科学全体の中核的な問題の解決に貢献すると信じています。

<<:  エンジニアリングチームでよく使用される 6 つの AI ツール

>>:  マスク氏が「ブレインカッター」を募集! Neuralink が初の人体実験を公式に発表。ALS 患者は「数秒でホーキング博士に変身」するのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

Apache Flink トークシリーズ - PyFlink のコアテクノロジーを公開

皆さんこんにちは。本日のサミットで Apache PyFlink のコア技術を皆さんと共有できること...

人工知能は将来言語をどのように変えるのでしょうか?

人工知能 (AI) とは、人間の知的思考や行動の方法や技術をシミュレートすることで、コンピュータ シ...

機械学習と AI のトレンド: 何が期待できるか?

ビデオゲーム、医療におけるモノのインターネット、スマートシティなどでは、すでに仮想現実がさらに多く見...

...

AI仮想読書機、ジェスチャー認識+OCR+音声TTS

こんにちは、みんな。最近はAIGCのコンテンツを研究しており、公式アカウントのコンテンツを長い間更新...

2021年に機械学習を始めるためのガイド

この質問は、機械学習コミュニティのソーシャル メディアでよく聞かれます。機械学習を始めるにはどうすれ...

人工知能に関する4つの大きな誤解

サンタフェ研究所の教授であり、『人工知能:考える人間のためのガイド』の著者でもあるメラニー・ミッチェ...

科学者はAIを活用して「スーパーバグ」を殺すことができる強力な新しい抗生物質を発見することに成功した

MITの研究者らは機械学習アルゴリズムを使用して、複数回の実験で強力な殺菌力を示したハリシンと呼ばれ...

...

...

李開復:今後数年間、中国で最も収益性の高い仕事は何でしょうか?

1物語はAI熱狂の3つの波から始まる2017年、誰もが人工知能について語っていました。しかし、2度...

...

CMU がオープンソースの AI コード生成モデルを作成、C 言語は Codex を上回る

最近、言語モデル (LM) は、プログラミング言語のソースコードのモデリングにおいて優れたパフォーマ...

テンセントが自動運転車市場に参入、百度セキュリティが共同で「OASESスマート端末セキュリティエコロジカルアライアンス」を設立

テンセントは自動運転システムを開発し、無人運転市場への参入も狙っている。百度セキュリティはファーウェ...