ChatGPT に触発されて、Google DeepMind は 7100 万の遺伝子変異を予測します。 AIが人間の遺伝学を解読

タンパク質予測モデルAlphaFoldがAIの世界に津波のような波を起こした後、Alphaファミリーは新たなスターを迎えました。

本日、Google DeepMind は、7,100 万の「ミスセンス変異」を予測できる新しい AI モデル AlphaMissense をリリースしました。

具体的には、AlphaMissense によって予測に成功した 89% の「ミスセンス変異」のうち、57% が病原性で、32% が良性でした。

論文アドレス: https://www.science.org/doi/10.1126/science.adg7492

人間の専門家によって確認できる変異はわずか0.1％です。

研究者がそれらの潜在的な影響をよりよく理解できるようにするために、Google は数千万の「ミスセンス変異」の全カタログも公開しました。

病気の根本原因を発見することは、人類遺伝学における最大の課題の一つです。

ミスセンス変異は、ヒトのタンパク質の機能に影響を与え、嚢胞性線維症、鎌状赤血球貧血、癌などの疾患を引き起こす可能性がある遺伝子変異です。

AlphaMissense の誕生は、医療分野、特に遺伝学における AI の大きな可能性を示しています。

これは、遺伝的変異と疾患の関係を理解し、標的を絞った薬物治療を開発する上で大きな意義があります。

AlphaFoldに続き、AlphaMissenseも世界を変えるAIとなり、人類の遺伝学の難問を解決することが期待されています！

ミスセンス変異とは何ですか?

ミスセンス変異は、バイオメディカルや分子生物学の分野でタンパク質コード遺伝子を記述するために使用される遺伝子変異です。

DNA 内の 1 つの文字を置換すると、タンパク質内に異なるアミノ酸が生成される可能性があります。

DNA を言語として想像すると、1 つの文字を置き換えるだけで単語が変わり、文の意味が完全に変わる可能性があります。

この場合、DNA の変化はアミノ酸の変化につながり、タンパク質の機能に影響を及ぼす可能性があります。

平均的な人間は 9,000 以上のミスセンス変異を抱えています。

一般的に言えば、これらのミスセンス変異のほとんどは良性であり、人体にほとんど影響を及ぼしません。しかし、残りの少数は病原性があり、タンパク質の機能を深刻に破壊する可能性があります。

ミスセンス変異は、少数または単一のミスセンス変異が直接疾患を引き起こす可能性があるため、まれな遺伝性疾患の診断に使用できます。

これらは、多くの異なるタイプの遺伝子変異によって引き起こされる可能性のある 2 型糖尿病などの複雑な疾患を研究する上でも重要です。

したがって、ミスセンス変異を分類することは、どのタンパク質の変化が疾患を引き起こす可能性があるかを理解するための重要なステップです。

人間に出現した400万以上のミスセンス変異のうち、専門家によって病原性または良性であると分類されているのはわずか2％です。

これは、考えられるミスセンス変異7100万個のうちのわずか0.1％に過ぎません。

残りの突然変異は、その影響に関する実験データや臨床データが不足しているため、「意義不明の突然変異」に分類されました。

しかし、AlphaMissense により、この変異の影響についてこれまでで最も明確な画像が得られました。

AlphaMissense は、既知の疾患変異のデータベースで、90% の精度の閾値で 89% の変異を分類できます。

ChatGPTモデルにインスピレーションを得てAlphaFold上に構築

それで、AlphaMissense はどのように構築されるのでしょうか?

AlphaFold と AlphaFold 2 はリリース以来、アミノ酸配列から科学的に知られているほぼすべてのタンパク質の構造を予測しており、その数は 2 億を超えています。

これを受けて、Google の研究者は、タンパク質内の単一のアミノ酸を変化させるミスセンス変異の病原性を予測できる AlphaFold (以下、AF) をベースにしたモデルを採用しました。

簡単に言えば、AlphaMissense の全体的な動作原理は、アミノ酸配列を入力として受け取り、配列内の特定の位置で起こり得るすべての単一アミノ酸の変化の病原性を予測することです。

AlphaMissense モデルをトレーニングするには、次の 2 つの段階で実行する必要があります。

フェーズ1

AF に似たニューラルネットワークをトレーニングします。このニューラルネットワークは、ChatGPT のような大規模なモデルに触発されています。

多重配列アライメント (MSA) のランダム位置マスクでアミノ酸の同一性を予測することにより、単一鎖構造の予測とタンパク質言語モデリングが可能になります。

研究者らは、AF にいくつかの小さなアーキテクチャ変更を加え、タンパク質言語モデリングの損失重みを増加させながらも、AF と同等の構造予測性能を達成しました。

事前トレーニング後、マスクされた言語モデリングヘッドは、MSA Transformer および Evolutionary Proportional Modeling (EMS) で行われるのと同様に、参照アミノ酸と代替アミノ酸の確率間の対数尤度比を計算することにより、変異効果の予測に使用できます。

これらのニューラルネットワークは、タンパク質構造の予測と新しいタンパク質の設計に優れていることが証明されており、どの配列が妥当でどの配列がそうでないかをすでに知っているため、変異体の予測に特に役立ちます。

フェーズII

この段階で、研究者らはヒトタンパク質のモデルを微調整し、MSA の 2 行目の変異配列を設定し、変異病原性分類ターゲットを追加しました。

次に、PrimateAI メソッドに従って、人間と霊長類の集団におけるこのような突然変異に注釈を付けます。

一般的な突然変異は良性であると考えられ、これまでに見られなかった突然変異は病原性であると考えられています。

研究者らは、モデルが検証セット（遺伝子ごとに良性と病原性の変異体が同数存在する 2,526 個の ClinVar 変異体）に過剰適合し始めた時点でトレーニングを中止しました。

ただし、AlphaMissense は、変異後のタンパク質構造の変化や、タンパク質の安定性に対するその他の影響を予測しません。

代わりに、構造に関する AlphaFold の「直感」を使用して、病気の原因となる可能性のあるタンパク質の変異を特定します。

具体的には、関連するタンパク質配列データベースと変異の構造コンテキスト情報を使用して、0 から 1 の間の連続スコアを生成し、変異の病原性確率を近似的に評価します。

この連続スコアにより、ユーザーは精度要件に応じて、変異を病原性か良性かに分類するためのしきい値を選択できます。

AlphaMissense がヒトのミスセンス変異を分類する方法

実験的評価では、AlphaMissense は、そのようなデータに関する明示的なトレーニングを必要とせずに、幅広い遺伝的および実験的ベンチマークで最先端の予測を実現します。

AlphaMissense は、ClinVar からの変異体の分類において他の計算方法よりも優れた性能を発揮しました。 ClinVar は、人間の多様性と疾患の関係に関する公開データアーカイブです。

AlphaMissense は、検査結果を予測する上で最も正確な方法でもあり、病原性を測定するさまざまな方法と一致していることを示唆しています。

AlphaMissenseはミスセンス変異の影響を予測する上で他の計算方法よりも優れている

AIが遺伝学を変える

1年前、Google DeepMindはAlphaFoldを使用して予測された2億個のタンパク質構造を公開しました。

この取り組みは、世界中の何百万人もの科学者の研究を加速させ、新たな発見への道を開きました。

現在、AlphaFold をベースにした AlphaMissense は、DNA の起源をたどることで、タンパク質に関する世界の理解をさらに深めています。

繰り返しになりますが、この研究を実用化する上で重要なステップは、科学界と協力することです。

Google DeepMind は Genomics England と協力して、AlphaMissense の予測が希少疾患の遺伝学の研究にどのように役立つかを検討してきました。

ゲノミクス・イングランドは、アルファミスセンスの調査結果を、既知のヒト突然変異の病原性に関して以前に収集されたデータと相互参照した。

評価結果は AlphaMissense の予測と一致しており、AlphaMissense の現実世界のベンチマークを提供します。

Google DeepMind はミスセンス変異の参照テーブルを公開し、19,000 種類以上のヒトタンパク質における 2 億 1,600 万通りのあらゆる単一アミノ酸配列置換に関する拡張予測を共有しました。

公開データには、各遺伝子の平均予測値も含まれています。これは、遺伝子の進化的制約の尺度に似ており、遺伝子が生物の生存にとってどれほど重要であるかを示します。

AlphaFoldによって予測された構造に重ね合わせたAlphaMissense予測の例

(赤 = 病原性があると予測、青 = 良性があると予測、灰色 = 不明)

左：βヘモグロビンサブユニット（HBBタンパク質）。このタンパク質の変異は鎌状赤血球貧血を引き起こす可能性があります。

右: 嚢胞性線維症膜コンダクタンス制御因子 (CFTR タンパク質)。このタンパク質の変異は嚢胞性線維症を引き起こす可能性があります。

さらに、Google DeepMind も EMBL-EBI と協力しました。 Ensembl 変異効果予測ツールにより、研究者は AlphaMissense の予測をより簡単に適用できるようになります。

近い将来、AlphaMissense はゲノミクスと生物科学全体の中核的な問題の解決に貢献すると信じています。

<<: エンジニアリングチームでよく使用される 6 つの AI ツール

>>: マスク氏が「ブレインカッター」を募集！ Neuralink が初の人体実験を公式に発表。ALS 患者は「数秒でホーキング博士に変身」するのでしょうか?

ChatGPT に触発されて、Google DeepMind は 7100 万の遺伝子変異を予測します。 AIが人間の遺伝学を解読

ミスセンス変異とは何ですか?

ChatGPTモデルにインスピレーションを得てAlphaFold上に構築

AIが遺伝学を変える

人工知能バーチャル試着室：小売業者向けの新たな主流マーケティングツール

NASA、狭い場所でも移動できる折り紙ロボットを開発

GitHub が機械学習コードの脆弱性スキャンを無料で提供、JavaScript / TypeScript もサポート

旅の途中のハードウェアプロジェクトが公開されました。 Apple Vision Proのエンジニアがスーパーバイザーを務め、かつてはマスクの脳コンピューターインターフェース企業で働いていた

IBMの新しいデータ分析アルゴリズムは、20分で9TBのデータを分析できる

1週間で2.5kの星、3枚の写真でユニークな画像を作成するオープンソースプロジェクトFaceChainにより、誰でもAIGCの個人写真を作成できます

ブロックチェーンは世界を変えつつありますが、人類はどこまで到達できるのでしょうか?

間隔適応型ルックアップテーブルに基づくリアルタイム画像強調法

推薦する

産業用ロボットアプリケーション業界の概要

無人運転と公共交通機関の標準仮想トラックで安全性を確保

レストランロボットの準備はできていますか?それが答えかもしれない

プロのようにビッグデータをマイニングするにはどうすればいいでしょうか?

美団テイクアウト広告のためのインテリジェントコンピューティングパワーの探求と実践

猫とチャットできるようになりました！生成型AIがもたらす包括的な革命：5年以内に初の動物言語を解読

調査によると、中国の従業員の88％が人間の上司よりもロボットを信頼している

AIが狂って縁石にぶつかる！ Pony.aiの完全自動運転の路上テストは「失敗」に終わった

ニューラルネットワークの BP アルゴリズムが発明されるまでになぜ長い時間がかかったのでしょうか?

自動化がビジネスに具体的な価値をもたらす方法

中国の研究チームが86%の精度を誇るAI「皮肉」検出モデルを発表

ChatGPTを使用して小児疾患を診断しますか?新たな研究がこれに冷水を浴びせる：正解率はわずか17％

アルゴリズムは美しいものです。私がこれらの古典的な Java アルゴリズムについて話すのを聞いた後、あなたはアルゴリズムの虜になるでしょう。

人工知能の「最初の一滴」がエンタープライズIT自動化に属する理由