Nature: ハーバード大学とオックスフォード大学が最新のAIモデルを開発、3600万の致命的な遺伝子変異を予測

Nature: ハーバード大学とオックスフォード大学が最新のAIモデルを開発、3600万の致命的な遺伝子変異を予測

[[432059]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

遺伝子レベルで病気を直接予測することは、常に現代の医学研究の主な方向性の 1 つでした。

しかし、全人類における遺伝子変異の数は既存の検出技術をはるかに超えており、異なる個人のタンパク質コード領域でさえ大きな違いが見られることがあります。

したがって、遺伝子変異の98%以上が人体に与える影響は未知であり、予測不可能なままです。

しかし最近、ハーバード大学医学部とオックスフォード大学の科学者らが協力し、 3,219の疾患遺伝子における3,600万以上の変異の病原性を予測し、 25万以上の未知の変異を分類するAIモデルを開発した。

この研究は現在ネイチャー誌に掲載されている。

「進化から病原性を予測する」

実際、遺伝子変異の影響を予測するモデルが臨床現場で使用されています。

ただし、これらのモデルはラベル付けされた臨床データセットでの教師あり学習であることが多いです。実際のシナリオに入ると、ラベルのバイアス、ラベルのスパース性、ノイズによって精度が低下し、遺伝子変異を分類するための信頼できる基盤として機能できなくなります。

今回、研究チームはEVE(Evolutionary model of Variant Effect)と呼ばれるモデルを提唱しました。

これは、進化シーケンスのみでトレーニングされた教師なし生成モデルです。

モデルは、変異遺伝子の病原性を 2 つのステップで予測します。

最初のステップでは、変分オートエンコーダー (VAE) を使用して、タンパク質のアミノ酸配列分布を学習します。

モデルは、複数のドメインにわたる複雑な高次元分布を学習した後、さまざまな位置間の複雑な依存関係を含む、進化の自然な順次制約を捉えます。

得られた近似事後分布をサンプリングして、野生型と比較した各単一アミノ酸変異体の相対的な可能性を評価します。

この相対的な尤度は「進化指数」と呼ばれ、臨床ラベルと比較すると、病原性ラベルと良性ラベルを区別する値はタンパク質全体で一貫していることが判明し、教師なし手法で病原性を効果的に推測できることが実証されました。

2 番目のステップでは、2 つのコンポーネントからなるグローバル - ローカル ガウス混合モデルを、すべての単一アミノ酸変異体の進化的指数分布に適合させました。

このステップの出力は、[0, 1]の区間で定義される連続的な病原性値であり、0は良性、1は病原性を表します。

次に、EVE モデルを ClinVar データベース内の 3219 個のヒト遺伝子に適用したところ、結果グラフの平均曲線面積 (AUC) は 0.91 となり、EVE モデルが大部分の遺伝子変異に対して臨床的に重要な予測を行えることが示されました。

既知のモデルよりも優れており、実験予測と一致している

研究チームはまた、EVE モデルを既知のモデルと比較し、事前に決定された既知の注釈付き臨床データを予測する際に、同様の計算モデルよりも優れた性能を発揮することを発見しました。

では、このような AI 計算モデルは、病原性を予測する従来の方法であるディープミューテーションスキャン実験とどのように比較されるのでしょうか?

比較実験の結果、臨床予測における EVE モデルの全体的なパフォーマンスは、基本的に従来の方法と一致していることがわかりました。

ClinVar データベースからより大きなデータセットを選択し、高品質の注釈のセットを小さくすると、EVE モデルのパフォーマンスはさらに向上します。

ハーバード大学とオックスフォード大学の協力

この論文には、ハーバード大学システム生物学部のジョナサン・フレイザー氏とマファルダ・ディアス氏を含む 3 人の共同筆頭著者がおり、両氏はマークス グループ研究室のメンバーでもある。

[[432060]] [[432061]]

パスカル・ノティンはオックスフォード大学のコンピュータサイエンスの博士課程の学生です。彼の主な研究分野には、ベイジアンディープラーニング、生成モデル、因果推論、計算生物学の交差点が含まれます。

[[432062]]

論文リンク:
https://www.nature.com/articles/s41586-021-04043-8

<<:  計算能力≠知恵! MIT教授の「意識の源」に関する新理論:人間の認知はコンピューティングとは何の関係もない

>>:  SGD を AI に置き換える? ResNet-50 をトレーニングする必要がなく、AI が 2400 万のパラメータすべてを数秒で 60% の精度で予測します。

ブログ    

推薦する

プログラミングの達人セスブリングがマリオカートで勝つためのAIソフトウェアを開発

海外のゲームプログラミングの達人、SethBling氏が新しいガジェットをリリースした。同氏は以前、...

AI人工知能の今後の発展方向と展望

人工知能 (AI) は、人間の知能をシミュレートし、学習、推論、認知、適応を通じて自律的にタスクを実...

2つのセッションが終了しました!自動運転に関する15の提案

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ソースディレクトリ内のファイルをプレフィックスに応じて異なるディレクトリに分散するためのアルゴリズム設計と C コードの実装

1. 要件の説明Linux システムのソース ディレクトリには、同じサフィックスを持つファイルがいく...

AIビデオ監視の普及における3つの大きな課題

近年、セキュリティビデオ監視はソフトウェアとハ​​ードウェアの両方で大きな技術的進歩を遂げており、さ...

将来のモバイル通信ネットワーク、6Gと人工知能の統合

将来の 6G ネットワークのより豊富なビジネス アプリケーションと極めて厳しいパフォーマンス要件を満...

都市 AI アプリケーションの失敗事例: 善意の自治体 AI プロジェクトはなぜ失敗したのか?

編集者注: AI をどのように実装できるかを検討してきた私たちにとって、この Flint の事例は目...

自動運転、顔認識…人工知能の時代が到来。私たちはどう対応すべきか?

2016年以降、人工知能がニュースに登場する頻度が高まっています。実は、理工系女子の私にとって、子...

近似アルゴリズムとは何ですか?どのような問題に適用されますか?この記事でその答えが分かります

COVID-19パンデミックは世界に多大な変化をもたらし、世界中の科学者や研究者が効果的なワクチンの...

モデルの一般化にはSGDに匹敵するフルバッチGDのランダムトレーニングは必要ない、ネットユーザー:計算コストは​​手頃ではない

[[431688]]最近、機械学習モデルは、モデルパラメータが増えながらも一般化性能が良好な大規模モ...

...

...

「ディープラーニングは学習ではない」:インテル幹部とAI大手ルカンが罵り合う

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

合理的強化学習はボトルネックに達しました。進化的アルゴリズムがその後継者となるでしょうか?

人工知能とゲーム理論の交差点から強化学習が生まれましたが、ゲーム理論に基づく問題解決は通常、合理性と...