ChatGPT に触発されて、Google DeepMind は 7100 万の遺伝子変異を予測します。 AIが人間の遺伝学を解読

ChatGPT に触発されて、Google DeepMind は 7100 万の遺伝子変異を予測します。 AIが人間の遺伝学を解読

タンパク質予測モデルAlphaFoldがAIの世界に津波のような波を起こした後、Alphaファミリーは新たなスターを迎えました。

本日、Google DeepMind は、7,100 万の「ミスセンス変異」を予測できる新しい AI モデル AlphaMissense をリリースしました。

具体的には、AlphaMissense によって予測に成功した 89% の「ミスセンス変異」のうち、57% が病原性で、32% が良性でした。

論文アドレス: https://www.science.org/doi/10.1126/science.adg7492

人間の専門家によって確認できる変異はわずか0.1%です。

研究者がそれらの潜在的な影響をよりよく理解できるようにするために、Google は数千万の「ミスセンス変異」の全カタログも公開しました。

病気の根本原因を発見することは、人類遺伝学における最大の課題の一つです。

ミスセンス変異は、ヒトのタンパク質の機能に影響を与え、嚢胞性線維症、鎌状赤血球貧血、癌などの疾患を引き起こす可能性がある遺伝子変異です。

AlphaMissense の誕生は、医療分野、特に遺伝学における AI の大きな可能性を示しています。

これは、遺伝的変異と疾患の関係を理解し​​、標的を絞った薬物治療を開発する上で大きな意義があります。

AlphaFoldに続き、AlphaMissenseも世界を変えるAIとなり、人類の遺伝学の難問を解決することが期待されています!

ミスセンス変異とは何ですか?

ミスセンス変異は、バイオメディカルや分子生物学の分野でタンパク質コード遺伝子を記述するために使用される遺伝子変異です。

DNA 内の 1 つの文字を置換すると、タンパク質内に異なるアミノ酸が生成される可能性があります。

DNA を言語として想像すると、1 つの文字を置き換えるだけで単語が変わり、文の意味が完全に変わる可能性があります。

この場合、DNA の変化はアミノ酸の変化につながり、タンパク質の機能に影響を及ぼす可能性があります。

平均的な人間は 9,000 以上のミスセンス変異を抱えています。

一般的に言えば、これらのミスセンス変異のほとんどは良性であり、人体にほとんど影響を及ぼしません。しかし、残りの少数は病原性があり、タンパク質の機能を深刻に破壊する可能性があります。

ミスセンス変異は、少数または単一のミスセンス変異が直接疾患を引き起こす可能性があるため、まれな遺伝性疾患の診断に使用できます。

これらは、多くの異なるタイプの遺伝子変異によって引き起こされる可能性のある 2 型糖尿病などの複雑な疾患を研究する上でも重要です。

したがって、ミスセンス変異を分類することは、どのタンパク質の変化が疾患を引き起こす可能性があるかを理解するための重要なステップです。

人間に出現した400万以上のミスセンス変異のうち、専門家によって病原性または良性であると分類されているのはわずか2%です。

これは、考えられるミスセンス変異7100万個のうちのわずか0.1%に過ぎません。

残りの突然変異は、その影響に関する実験データや臨床データが不足しているため、「意義不明の突然変異」に分類されました。

しかし、AlphaMissense により、この変異の影響についてこれまでで最も明確な画像が得られました。

AlphaMissense は、既知の疾患変異のデータベースで、90% の精度の閾値で 89% の変異を分類できます。

ChatGPTモデルにインスピレーションを得てAlphaFold上に構築

それで、AlphaMissense はどのように構築されるのでしょうか?

AlphaFold と AlphaFold 2 はリリース以来、アミノ酸配列から科学的に知られているほぼすべてのタンパク質の構造を予測しており、その数は 2 億を超えています。

これを受けて、Google の研究者は、タンパク質内の単一のアミノ酸を変化させるミスセンス変異の病原性を予測できる AlphaFold (以下、AF) をベースにしたモデルを採用しました。

簡単に言えば、AlphaMissense の全体的な動作原理は、アミノ酸配列を入力として受け取り、配列内の特定の位置で起こり得るすべての単一アミノ酸の変化の病原性を予測することです。

AlphaMissense モデルをトレーニングするには、次の 2 つの段階で実行する必要があります。

フェーズ1

AF に似たニューラル ネットワークをトレーニングします。このニューラル ネットワークは、ChatGPT のような大規模なモデルに触発されています。

多重配列アライメント (MSA) のランダム位置マスクでアミノ酸の同一性を予測することにより、単一鎖構造の予測とタンパク質言語モデリングが可能になります。

研究者らは、AF にいくつかの小さなアーキテクチャ変更を加え、タンパク質言語モデリングの損失重みを増加させながらも、AF と同等の構造予測性能を達成しました。

事前トレーニング後、マスクされた言語モデリング ヘッドは、MSA Transformer および Evolutionary Proportional Modeling (EMS) で行われるのと同様に、参照アミノ酸と代替アミノ酸の確率間の対数尤度比を計算することにより、変異効果の予測に使用できます。

これらのニューラル ネットワークは、タンパク質構造の予測と新しいタンパク質の設計に優れていることが証明されており、どの配列が妥当でどの配列がそうでないかをすでに知っているため、変異体の予測に特に役立ちます。

フェーズII

この段階で、研究者らはヒトタンパク質のモデルを微調整し、MSA の 2 行目の変異配列を設定し、変異病原性分類ターゲットを追加しました。

次に、PrimateAI メソッドに従って、人間と霊長類の集団におけるこのような突然変異に注釈を付けます。

一般的な突然変異は良性であると考えられ、これまでに見られなかった突然変異は病原性であると考えられています。

研究者らは、モデルが検証セット(遺伝子ごとに良性と病原性の変異体が同数存在する 2,526 個の ClinVar 変異体)に過剰適合し始めた時点でトレーニングを中止しました。

ただし、AlphaMissense は、変異後のタンパク質構造の変化や、タンパク質の安定性に対するその他の影響を予測しません。

代わりに、構造に関する AlphaFold の「直感」を使用して、病気の原因となる可能性のあるタンパク質の変異を特定します。

具体的には、関連するタンパク質配列データベースと変異の構造コンテキスト情報を使用して、0 から 1 の間の連続スコアを生成し、変異の病原性確率を近似的に評価します。

この連続スコアにより、ユーザーは精度要件に応じて、変異を病原性か良性かに分類するためのしきい値を選択できます。

AlphaMissense がヒトのミスセンス変異を分類する方法

実験的評価では、AlphaMissense は、そのようなデータに関する明示的なトレーニングを必要とせずに、幅広い遺伝的および実験的ベンチマークで最先端の予測を実現します。

AlphaMissense は、ClinVar からの変異体の分類において他の計算方法よりも優れた性能を発揮しました。 ClinVar は、人間の多様性と疾患の関係に関する公開データ アーカイブです。

AlphaMissense は、検査結果を予測する上で最も正確な方法でもあり、病原性を測定するさまざまな方法と一致していることを示唆しています。

AlphaMissenseはミスセンス変異の影響を予測する上で他の計算方法よりも優れている

AIが遺伝学を変える

1年前、Google DeepMindはAlphaFoldを使用して予測された2億個のタンパク質構造を公開しました。

この取り組みは、世界中の何百万人もの科学者の研究を加速させ、新たな発見への道を開きました。

現在、AlphaFold をベースにした AlphaMissense は、DNA の起源をたどることで、タンパク質に関する世界の理解をさらに深めています。

繰り返しになりますが、この研究を実用化する上で重要なステップは、科学界と協力することです。

Google DeepMind は Genomics England と協力して、AlphaMissense の予測が希少疾患の遺伝学の研究にどのように役立つかを検討してきました。

ゲノミクス・イングランドは、アルファミスセンスの調査結果を、既知のヒト突然変異の病原性に関して以前に収集されたデータと相互参照した。

評価結果は AlphaMissense の予測と一致しており、AlphaMissense の現実世界のベンチマークを提供します。

Google DeepMind はミスセンス変異の参照テーブルを公開し、19,000 種類以上のヒトタンパク質における 2 億 1,600 万通りのあらゆる単一アミノ酸配列置換に関する拡張予測を共有しました。

公開データには、各遺伝子の平均予測値も含まれています。これは、遺伝子の進化的制約の尺度に似ており、遺伝子が生物の生存にとってどれほど重要であるかを示します。

AlphaFoldによって予測された構造に重ね合わせたAlphaMissense予測の例

(赤 = 病原性があると予測、青 = 良性があると予測、灰色 = 不明)

左:βヘモグロビンサブユニット(HBBタンパク質)。このタンパク質の変異は鎌状赤血球貧血を引き起こす可能性があります。

右: 嚢胞性線維症膜コンダクタンス制御因子 (CFTR タンパク質)。このタンパク質の変異は嚢胞性線維症を引き起こす可能性があります。

さらに、Google DeepMind も EMBL-EBI と協力しました。 Ensembl 変異効果予測ツールにより、研究者は AlphaMissense の予測をより簡単に適用できるようになります。

近い将来、AlphaMissense はゲノミクスと生物科学全体の中核的な問題の解決に貢献すると信じています。

<<:  エンジニアリングチームでよく使用される 6 つの AI ツール

>>:  マスク氏が「ブレインカッター」を募集! Neuralink が初の人体実験を公式に発表。ALS 患者は「数秒でホーキング博士に変身」するのでしょうか?

ブログ    
ブログ    

推薦する

AI支援農業建築:農業生産効率の向上

科学技術の急速な発展に伴い、人工知能(AI)はさまざまな分野にますます統合されつつあり、農業分野も例...

誇張ではなく、絶対にそうはならない

[[280896]] 01. はじめにデータのクエリ速度を向上させるために、キャッシュがよく使用され...

...

女性は人工知能によって職を失う可能性が高いのでしょうか?人工知能は本当に失業の波を引き起こすのでしょうか?

[[274542]]近年、職場における女性はあ​​らゆる方面から注目されています。女性が職場で真に...

顔認識は終わったのか?最初の「顔ハイジャック」型バンキングトロイの木馬が誕生

各人の顔、指紋、虹彩の情報はそれぞれ固有であり偽造が困難であるため、生体認証は長年にわたり究極の本人...

旅行業界における人工知能の未来

人工知能 (AI) は、スピード、効率、安全性、正確性を向上させることで旅行業界に大きな変化をもたら...

前例のない変化:パンデミックはテクノロジーと未来を急速に形作っている

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

自動運転車の危険性: 自動運転車が世界中で実現できないのはなぜか

テスラは2020年10月、車の所有者が駐車し、巡航速度で車線を自動的に維持し、赤信号で停止することを...

連休明けの電力安定供給のため、変電所点検ロボットが活躍中

前年と比べると、春節期間中の電力供給の確保においてハイテク技術が重要な役割を果たした。ロボットによる...

実践 | 人工知能が小売体験を向上させる 20 の例

小売体験は長年にわたってあまり変わっていません。つまり、店に入って、適切な製品を見つけて、それを購入...

ワンジ自動車ミリ波レーダーポイントクラウド技術の分析

レーダー点群のセマンティックセグメンテーションは、レーダーデータ処理における新たな課題です。このタス...

...

ChatGPTがついにオンラインになり、回答のソースを提供できるようになりました

たった今、OpenAI が重要なニュースを発表しました。ChatGPT が正式にインターネットに接続...

人工知能とはいったい何でしょうか?映画の中で人類の支配は起こるのでしょうか?答えはここにあります

近年、人工知能は驚異的なスピードで技術が発展していることから、話題になっています。AlphaGoは囲...

PyTorch でテンソルを操作するための 5 つの基本関数

ニューラル ネットワークを正確かつ効率的に構築する能力は、ディープラーニング エンジニアの採用担当者...