AF2を超える？ Iambic、NVIDIA、Caltech が、状態固有のタンパク質-リガンド複合体の構造予測のためのマルチスケール深層生成モデルを開発

タンパク質と小分子リガンドによって形成される結合複合体は、生命にとって遍在し、不可欠です。科学者は最近、タンパク質構造の予測において進歩を遂げていますが、既存のアルゴリズムでは、結合したリガンドの構造と、それがタンパク質の折り畳みに及ぼす制御効果を体系的に予測することはできません。

この矛盾に対処するため、AI 製薬会社 Iambic Therapeutics、Nvidia Corporation、カリフォルニア工科大学の研究者らは、タンパク質配列とリガンド分子グラフの入力のみを使用してタンパク質-リガンド複合体の構造を直接予測できる計算方法である NeuralPLexer を提案しました。

NeuralPLexer は、深層生成モデルを使用して、結合複合体の 3 次元構造とその構造変化を原子分解能でサンプリングします。このモデルは、基本的な生物物理学的制約とマルチスケール幾何学的ディープラーニングシステムを組み合わせた拡散プロセスに基づいており、残基レベルの接触マップとすべての重原子座標を階層的に反復的にサンプリングします。

NeuralPLexer の予測は、酵素工学や創薬における重要なターゲットの実験的構造決定と一致しており、プロテオーム規模で機能性タンパク質や小分子の設計を加速させる大きな可能性を秘めています。

「マルチスケール深層生成モデルによる状態固有のタンパク質-リガンド複合体構造予測」と題されたこの研究は、2024年2月12日にNature Machine Intelligenceに掲載されました。

静的なタンパク質構造予測は医薬品設計をサポートするには不十分である

ディープラーニングは、1次元のアミノ酸配列からタンパク質の構造を予測する上で大きな進歩を遂げました。 AlphaFold2 (AF2) などの最先端のタンパク質構造予測ネットワークは、タンパク質構造に対する進化的、物理的、幾何学的制約に基づいた予測パイプラインを採用しています。具体的には、多重配列アライメント (MSA) またはタンパク質言語モデル (PLM) と特殊なニューラルネットワークから抽出された進化的制約を、配列ベースの情報および幾何学的表現と体系的に組み合わせて、エンドツーエンドの 3 次元 (3D) 構造予測を実現します。

静的なタンパク質構造の予測には非常に成功していますが、タンパク質折り畳み問題のこの単一の構造定式化では、タンパク質機能に関する不完全な情報しか提供されず、構造に基づく薬剤設計には不十分であることがわかっています。

生成的ディープラーニングは代替パラダイム

しかし、受容体の立体構造の大幅な変化を伴うタンパク質-リガンド複合体の計算モデル化は、遅いタンパク質状態遷移をシミュレートするための高コストによって妨げられています。生成的ディープラーニングの最近の発展は、代替パラダイムを提供し、複雑な視覚と言語の領域の理解において大きな進歩をもたらしました。

生成モデリングの注目すべき 2 つの戦略は、(1) シーケンスデータ (自然言語やゲノミクスなど) 用の Transformer ネットワークで広く採用され、順次プロセスに基づく自己回帰モデルと、(2) 拡散ベースの生成モデルです。拡散ベースの生成モデルは、事前分布からサンプリングし、ニューラルネットワークを使用してノイズプロセスを徐々に逆転させることで、ランダムプロセスを利用してデータを生成します。

科学者たちは、深層生成モデルが、タンパク質配列設計のための言語モデルやタンパク質バックボーン生成のための拡散モデルなど、実験的に検証された機能を持つ新規設計されたタンパク質を生成できることを実証しました。拡散モデルは、特に分子ドッキングや構造ベースの薬物設計において、タンパク質骨格を超えた分子構造を効果的にシミュレートできます。

しかし、これまでのところ、構造決定実験に匹敵する精度で、原子分解能で結合複合体の構造を直接予測できる生成モデルを開発したグループはありません。

深層生成モデルがタンパク質-リガンド複合体の構造を予測

最新の研究では、Iambic、NVIDIA、Caltech のチームが、生物物理学的帰納的バイアスに基づく深層生成モデルを使用してタンパク質-リガンド複合体の構造を予測する計算システムである NeuralPLexer を発表しました。この方法では、PLM から取得した補助機能と、実験的に解決された相同遺伝子または計算モデルから取得されたテンプレートタンパク質構造に基づいて、特定のタンパク質配列とリガンド分子グラフ入力に対する結合複合体の構造セットを直接生成できます。

図: NeuralPLexer は、タンパク質-リガンド複合体の構造と立体配座の変化を正確に予測できます。（出典：論文）

予測パイプラインとその基盤となるニューラルネットワークアーキテクチャはどちらも、生体分子複合体のマルチスケール階層構造を反映するように設計されています。具体的には、NeuralPLexer には次のものが含まれます。

（１）個々の小分子およびアミノ酸グラフの原子レベルの化学的特徴と幾何学的特徴をテンソル表現にエンコードするグラフベースのネットワーク。これは、分子構造と生物活性の百万レベルのデータベースでトレーニングされた物理学にヒントを得たネットワークアーキテクチャを通じて実装されます。

（２）接触予測モジュール（CPM）は、最近の視覚言語モデルとフォールド予測ネットワークを参考にしており、注目度ベースのネットワークを使用して残基規模の分子間距離分布、粗粒度の接触マップ、および関連するペア表現を生成します。

（３）等変構造ノイズ除去モジュール（ESDM）は、等変構造ノイズ除去拡散プロセスを使用し、タンパク質とリガンド分子のキラル制約を維持しながら、原子スケールと残基スケールのネットワークの出力に基づいて複合原子構造を生成するために使用されます。

タンパク質-リガンドブラインドドッキングについて評価したところ、NeuralPLexer は、PDBBind2020 ベンチマークで最もパフォーマンスの高い既存の方法と比較して、予測成功率を最大 78% 向上させました。困難なターゲットに対するリガンド結合部位の設計において、NeuralPLexer は計算によって生成された切り詰められたスキャフォールドのみを使用して、結合部位構造の最大 45% を効果的に回復できます。

これは、既存の物理学ベースのアプローチと比較して、成功率が質的に向上したことを意味します。さらに、NeuralPLexer は、誘導適合結合またはコンフォメーション選択の影響を受けるタンパク質構造を選択的に予測する点で、既存の方法よりも体系的な利点を示しています。構造可塑性が大きいリガンド結合タンパク質の 2 つのベンチマークデータセットでは、NeuralPLexer は最先端のタンパク質構造予測アルゴリズム AF2 よりも優れており、最高のテンプレートモデリングスコア (TM スコア) (平均 0.906) と、リガンド結合時に大幅なコンフォメーション変化を起こすドメインの精度が 11 ～ 13% 向上しています。

NeuralPLexer はリガンド結合とタンパク質構造の変化をシミュレートする多用途の機能を備えているため、立体構造ランドスケープを迅速に特徴付けることができ、タンパク質機能を制御する分子メカニズムの理解が深まり、プロテオーム規模での治療介入やタンパク質工学の非従来型のターゲットを特定するのに役立ちます。

結論

データ駆動型のアプローチである NeuralPLexer は一般化可能であり、より優れた実験データとバイオインフォマティクスデータを統合することで継続的に改善することができます。より広範なコミュニティからのトレーニングおよびベンチマークデータセットのキュレーションの改善により、実験的に特定された相同体のないタンパク質ファミリーのより体系的な分析が可能になり、このアプローチを翻訳後修飾や多型の大きなヘテロ多量体タンパク質複合体などのより困難なシステムに拡張できるようになります。

この研究は、これらの方向性を探るための一般的な計算フレームワークを提供し、タンパク質-リガンド複合体の高速かつ正確な構造予測への道を開き、それによって構造生物学、創薬、タンパク質工学の進歩を促進します。

論文リンク: https://www.nature.com/articles/s42256-024-00792-z

<<:

>>: Karpathy が OpenAI を離れ、2 時間の AI コースを開始! GPTトークナイザーをゼロから構築する

ブログ

自然言語処理の究極の方向性: 自然言語処理におけるディープラーニングの 5 つの利点

AF2を超える？ Iambic、NVIDIA、Caltech が、状態固有のタンパク質-リガンド複合体の構造予測のためのマルチスケール深層生成モデルを開発

静的なタンパク質構造予測は医薬品設計をサポートするには不十分である

生成的ディープラーニングは代替パラダイム

深層生成モデルがタンパク質-リガンド複合体の構造を予測

結論

自然言語処理の究極の方向性: 自然言語処理におけるディープラーニングの 5 つの利点

MITはレーザー彫刻機にAIを搭載し、材料を自動的に識別し、98%の精度で彫刻の強度を判定した。

「2024年最重要AIチャート」が大拡散中！オープンソースのAIモデルは独自のモデルよりも優れているとルカン氏は称賛

Gonex CEO ウェン・メンフェイ氏との独占インタビュー: アプリケーションの分野では、モデル自体よりも意図の認識の方が重要です。

AIの第一人者ジェフ・ディーン氏がGoogleのAI事業を統括

人工知能による植毛が「ネットセレブ」に？ロビン・リー：AIはクールという段階を過ぎた

世界の自動運転事故を比較することで、そのデータと真実が明らかになった。

2021年、民間ドローン分野では5つの大きなトレンドが見られる

推薦する

大規模製造企業におけるインテリジェントな意思決定シナリオの分析

OpenAIの創設者は、Nvidiaに対抗するチップを設計・製造するためのグローバルなチップ工場ネットワークを構築したいと考えている

ワクチン開発におけるIoTとAIの役割

IT サービス管理における 3 つの主要な NLP 使用例

MIT、Wikipedia の更新、間違いの修正、偽ニュースの特定を行う AI 編集システムを開始

機械学習が金融サイバー犯罪と戦う方法: 人工知能はセキュリティの洞察にとって不可欠

AIは信頼の危機にどう対処するか

OCRの終焉？ Megvii は、ドキュメントレベルの OCR をサポートし、中国語と英語をサポートし、オープンソース化されたマルチモーダル大規模モデルを提案しています。

AI を活用したエンジニアリングは、ロボット工学と自動化をどのように強化できるのでしょうか?

GitHub ホットリスト 1 位: 数百万のトークンコンテキスト、動画も生成可能、カリフォルニア大学バークレー校制作