ChatGPT に触発されて、Google DeepMind は 7100 万の遺伝子変異を予測します。 AIが人間の遺伝学を解読

ChatGPT に触発されて、Google DeepMind は 7100 万の遺伝子変異を予測します。 AIが人間の遺伝学を解読

タンパク質予測モデルAlphaFoldがAIの世界に津波のような波を起こした後、Alphaファミリーは新たなスターを迎えました。

本日、Google DeepMind は、7,100 万の「ミスセンス変異」を予測できる新しい AI モデル AlphaMissense をリリースしました。

具体的には、AlphaMissense によって予測に成功した 89% の「ミスセンス変異」のうち、57% が病原性で、32% が良性でした。

論文アドレス: https://www.science.org/doi/10.1126/science.adg7492

人間の専門家によって確認できる変異はわずか0.1%です。

研究者がそれらの潜在的な影響をよりよく理解できるようにするために、Google は数千万の「ミスセンス変異」の全カタログも公開しました。

病気の根本原因を発見することは、人類遺伝学における最大の課題の一つです。

ミスセンス変異は、ヒトのタンパク質の機能に影響を与え、嚢胞性線維症、鎌状赤血球貧血、癌などの疾患を引き起こす可能性がある遺伝子変異です。

AlphaMissense の誕生は、医療分野、特に遺伝学における AI の大きな可能性を示しています。

これは、遺伝的変異と疾患の関係を理解し​​、標的を絞った薬物治療を開発する上で大きな意義があります。

AlphaFoldに続き、AlphaMissenseも世界を変えるAIとなり、人類の遺伝学の難問を解決することが期待されています!

ミスセンス変異とは何ですか?

ミスセンス変異は、バイオメディカルや分子生物学の分野でタンパク質コード遺伝子を記述するために使用される遺伝子変異です。

DNA 内の 1 つの文字を置換すると、タンパク質内に異なるアミノ酸が生成される可能性があります。

DNA を言語として想像すると、1 つの文字を置き換えるだけで単語が変わり、文の意味が完全に変わる可能性があります。

この場合、DNA の変化はアミノ酸の変化につながり、タンパク質の機能に影響を及ぼす可能性があります。

平均的な人間は 9,000 以上のミスセンス変異を抱えています。

一般的に言えば、これらのミスセンス変異のほとんどは良性であり、人体にほとんど影響を及ぼしません。しかし、残りの少数は病原性があり、タンパク質の機能を深刻に破壊する可能性があります。

ミスセンス変異は、少数または単一のミスセンス変異が直接疾患を引き起こす可能性があるため、まれな遺伝性疾患の診断に使用できます。

これらは、多くの異なるタイプの遺伝子変異によって引き起こされる可能性のある 2 型糖尿病などの複雑な疾患を研究する上でも重要です。

したがって、ミスセンス変異を分類することは、どのタンパク質の変化が疾患を引き起こす可能性があるかを理解するための重要なステップです。

人間に出現した400万以上のミスセンス変異のうち、専門家によって病原性または良性であると分類されているのはわずか2%です。

これは、考えられるミスセンス変異7100万個のうちのわずか0.1%に過ぎません。

残りの突然変異は、その影響に関する実験データや臨床データが不足しているため、「意義不明の突然変異」に分類されました。

しかし、AlphaMissense により、この変異の影響についてこれまでで最も明確な画像が得られました。

AlphaMissense は、既知の疾患変異のデータベースで、90% の精度の閾値で 89% の変異を分類できます。

ChatGPTモデルにインスピレーションを得てAlphaFold上に構築

それで、AlphaMissense はどのように構築されるのでしょうか?

AlphaFold と AlphaFold 2 はリリース以来、アミノ酸配列から科学的に知られているほぼすべてのタンパク質の構造を予測しており、その数は 2 億を超えています。

これを受けて、Google の研究者は、タンパク質内の単一のアミノ酸を変化させるミスセンス変異の病原性を予測できる AlphaFold (以下、AF) をベースにしたモデルを採用しました。

簡単に言えば、AlphaMissense の全体的な動作原理は、アミノ酸配列を入力として受け取り、配列内の特定の位置で起こり得るすべての単一アミノ酸の変化の病原性を予測することです。

AlphaMissense モデルをトレーニングするには、次の 2 つの段階で実行する必要があります。

フェーズ1

AF に似たニューラル ネットワークをトレーニングします。このニューラル ネットワークは、ChatGPT のような大規模なモデルに触発されています。

多重配列アライメント (MSA) のランダム位置マスクでアミノ酸の同一性を予測することにより、単一鎖構造の予測とタンパク質言語モデリングが可能になります。

研究者らは、AF にいくつかの小さなアーキテクチャ変更を加え、タンパク質言語モデリングの損失重みを増加させながらも、AF と同等の構造予測性能を達成しました。

事前トレーニング後、マスクされた言語モデリング ヘッドは、MSA Transformer および Evolutionary Proportional Modeling (EMS) で行われるのと同様に、参照アミノ酸と代替アミノ酸の確率間の対数尤度比を計算することにより、変異効果の予測に使用できます。

これらのニューラル ネットワークは、タンパク質構造の予測と新しいタンパク質の設計に優れていることが証明されており、どの配列が妥当でどの配列がそうでないかをすでに知っているため、変異体の予測に特に役立ちます。

フェーズII

この段階で、研究者らはヒトタンパク質のモデルを微調整し、MSA の 2 行目の変異配列を設定し、変異病原性分類ターゲットを追加しました。

次に、PrimateAI メソッドに従って、人間と霊長類の集団におけるこのような突然変異に注釈を付けます。

一般的な突然変異は良性であると考えられ、これまでに見られなかった突然変異は病原性であると考えられています。

研究者らは、モデルが検証セット(遺伝子ごとに良性と病原性の変異体が同数存在する 2,526 個の ClinVar 変異体)に過剰適合し始めた時点でトレーニングを中止しました。

ただし、AlphaMissense は、変異後のタンパク質構造の変化や、タンパク質の安定性に対するその他の影響を予測しません。

代わりに、構造に関する AlphaFold の「直感」を使用して、病気の原因となる可能性のあるタンパク質の変異を特定します。

具体的には、関連するタンパク質配列データベースと変異の構造コンテキスト情報を使用して、0 から 1 の間の連続スコアを生成し、変異の病原性確率を近似的に評価します。

この連続スコアにより、ユーザーは精度要件に応じて、変異を病原性か良性かに分類するためのしきい値を選択できます。

AlphaMissense がヒトのミスセンス変異を分類する方法

実験的評価では、AlphaMissense は、そのようなデータに関する明示的なトレーニングを必要とせずに、幅広い遺伝的および実験的ベンチマークで最先端の予測を実現します。

AlphaMissense は、ClinVar からの変異体の分類において他の計算方法よりも優れた性能を発揮しました。 ClinVar は、人間の多様性と疾患の関係に関する公開データ アーカイブです。

AlphaMissense は、検査結果を予測する上で最も正確な方法でもあり、病原性を測定するさまざまな方法と一致していることを示唆しています。

AlphaMissenseはミスセンス変異の影響を予測する上で他の計算方法よりも優れている

AIが遺伝学を変える

1年前、Google DeepMindはAlphaFoldを使用して予測された2億個のタンパク質構造を公開しました。

この取り組みは、世界中の何百万人もの科学者の研究を加速させ、新たな発見への道を開きました。

現在、AlphaFold をベースにした AlphaMissense は、DNA の起源をたどることで、タンパク質に関する世界の理解をさらに深めています。

繰り返しになりますが、この研究を実用化する上で重要なステップは、科学界と協力することです。

Google DeepMind は Genomics England と協力して、AlphaMissense の予測が希少疾患の遺伝学の研究にどのように役立つかを検討してきました。

ゲノミクス・イングランドは、アルファミスセンスの調査結果を、既知のヒト突然変異の病原性に関して以前に収集されたデータと相互参照した。

評価結果は AlphaMissense の予測と一致しており、AlphaMissense の現実世界のベンチマークを提供します。

Google DeepMind はミスセンス変異の参照テーブルを公開し、19,000 種類以上のヒトタンパク質における 2 億 1,600 万通りのあらゆる単一アミノ酸配列置換に関する拡張予測を共有しました。

公開データには、各遺伝子の平均予測値も含まれています。これは、遺伝子の進化的制約の尺度に似ており、遺伝子が生物の生存にとってどれほど重要であるかを示します。

AlphaFoldによって予測された構造に重ね合わせたAlphaMissense予測の例

(赤 = 病原性があると予測、青 = 良性があると予測、灰色 = 不明)

左:βヘモグロビンサブユニット(HBBタンパク質)。このタンパク質の変異は鎌状赤血球貧血を引き起こす可能性があります。

右: 嚢胞性線維症膜コンダクタンス制御因子 (CFTR タンパク質)。このタンパク質の変異は嚢胞性線維症を引き起こす可能性があります。

さらに、Google DeepMind も EMBL-EBI と協力しました。 Ensembl 変異効果予測ツールにより、研究者は AlphaMissense の予測をより簡単に適用できるようになります。

近い将来、AlphaMissense はゲノミクスと生物科学全体の中核的な問題の解決に貢献すると信じています。

<<:  エンジニアリングチームでよく使用される 6 つの AI ツール

>>:  マスク氏が「ブレインカッター」を募集! Neuralink が初の人体実験を公式に発表。ALS 患者は「数秒でホーキング博士に変身」するのでしょうか?

ブログ    
ブログ    

推薦する

産業用ロボットアプリケーション業界の概要

現在の技術の進歩と産業の発展に伴い、産業用ロボットの応用分野も急速に拡大しています。企業は、労働コス...

無人運転と公共交通機関の標準仮想トラックで安全性を確保

深セン初の無人バスの試験運行が始まり、我が国の科学技術力に対する信頼が高まっています。ほぼ同時期に、...

レストランロボットの準備はできていますか?それが答えかもしれない

パンデミック中に本当に苦戦した業界の一つはレストランです。多くのレストランは社会的距離を保つ必要性か...

プロのようにビッグデータをマイニングするにはどうすればいいでしょうか?

股関節置換手術にはどれくらいの時間がかかりますか?これは病院にとって学術的な問題ではありません。 2...

美団テイクアウト広告のためのインテリジェントコンピューティングパワーの探求と実践

著者 | 嘉宏、舜慧、郭良 他ディープラーニングの時代では、コンピューティングパワーの需要と消費が増...

猫とチャットできるようになりました!生成型AIがもたらす包括的な革命:5年以内に初の動物言語を解読

ソロモンが動物とコミュニケーションをとることができたのは、魔法のアイテムを持っていたからではなく、観...

調査によると、中国の従業員の88%が人間の上司よりもロボットを信頼している

[[279631]]中国の従業員は職場でロボットをより信頼しているのでしょうか?調査によると、中国の...

AIが狂って縁石にぶつかる! Pony.aiの完全自動運転の路上テストは「失敗」に終わった

近年、中国の「新車製造勢力」のインテリジェント運転分野における宣伝・マーケティング活動とビジネス成果...

ニューラル ネットワークの BP アルゴリズムが発明されるまでになぜ長い時間がかかったのでしょうか?

ローズブラットは 1950 年代にパーセプトロンを提案し、多層ニューラル ネットワークの BP アル...

自動化がビジネスに具体的な価値をもたらす方法

[[404690]]長年にわたり、多くの企業がロボット、自動化、人工知能などのテクノロジーからより多...

中国の研究チームが86%の精度を誇るAI「皮肉」検出モデルを発表

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

ChatGPTを使用して小児疾患を診断しますか?新たな研究がこれに冷水を浴びせる:正解率はわずか17%

1月4日、ニューヨークのコーエン小児医療センターの3人の小児科医が、大規模言語モデルChatGPT...

人工知能の「最初の一滴」がエンタープライズIT自動化に属する理由

企業の情報技術の意思決定者として、上級管理職や部門長に AI のビジネス価値を示す必要がある場合、I...