マイクロソフト、進化拡散法を用いたタンパク質生成のための新しい AI フレームワーク EvoDiff をオープンソース化

進化により、細胞プロセスを正確に制御する多様な機能性タンパク質が生み出されました。近年、この多様性から学び、効果的かつ新規なタンパク質を生成し、今日の未解決の課題に対処するために機能を調整することを最終目標とする深層生成モデルが登場しています。

深層生成モデルは、コンピューター内で新しいタンパク質を作成する際に、ますます強力なツールになりつつあります。拡散モデルは、自然界で見られる実際のタンパク質とは異なる生理学的に妥当なタンパク質を生成することが最近示された生成モデルの一種であり、新規タンパク質設計において比類のないパワーと制御を提供します。

しかし、現在の最先端のモデルは、トレーニングデータの幅を厳しく制限し、タンパク質設計空間の小さな偏った部分に生成を制限するタンパク質構造を構築します。

Microsoft の研究者は、進化規模のデータと拡散モデルの独自の制御機能を組み合わせることで、配列空間で調整可能なタンパク質の作成を可能にする汎用拡散フレームワークである EvoDiff を開発しました。 EvoDiff は、構造的に妥当なタンパク質を多様化して、すべての可能な配列と機能をカバーできます。 EvoDiff が、無秩序な部分を持つタンパク質など、構造ベースのモデルではアクセスできないタンパク質をモデル化できると同時に、有用な構造モチーフのスキャフォールドを設計できるという事実は、配列ベースの式の一般性を証明しています。

EvoDiff は、タンパク質配列の進化における拡散の生成モデルの有効性を実証する最初のディープラーニングフレームワークです。

「EvoDiff から学べることがあるとすれば、それは、汎用性、拡張性、モジュール性を実現できるため、配列によるタンパク質生成が可能であり、またそうすべきだということです」と、マイクロソフトの上級研究員で EvoDiff の共著者である Ava Amini 氏は語ります。「当社の拡散フレームワークは、それを実現する力を与え、特定の機能目標を満たすようにこれらのタンパク質を設計する方法を制御できるようにします。」

EvoDiff のもう 1 人の共著者である Kevin K. Yang 氏は、次のように述べています。「EvoDiff によって、タンパク質工学の能力が構造機能パラダイムを超えて、プログラム可能な配列優先設計へと拡張されると考えています。EvoDiff によって、新しいタンパク質を制御可能に設計するには、実際には構造は必要なく、むしろ「タンパク質配列だけあればよい」ということを証明しました。」

この研究は、「進化的拡散によるタンパク質生成：必要なのは配列だけ」というタイトルでbioRxivプレプリントプラットフォームに掲載されました。

GitHub アドレス: https://github.com/microsoft/evodiff

論文リンク: https://doi.org/10.1101/2023.09.11.556673

6億4000万個のパラメータ

EvoDiff フレームワークの中心となるのは、さまざまな種とタンパク質の機能カテゴリのデータに基づいてトレーニングされた 6 億 4000 万のパラメータモデルです。モデルのトレーニングに使用するデータは、UniProt コンソーシアムが管理するタンパク質配列と機能情報のデータベースである UniProt データのサブセットである、配列アライメント用の OpenFold データセット UniRef50 から取得されます。

Uniref50 は、約 4,200 万個のタンパク質配列を含むデータセットです。 MSA は OpenFold データセットからのもので、16,000,000 個の UniClust30 クラスターと、140,000 個の異なる PDB チェーンをカバーする 401,381 個の MSA が含まれています。 IDR に関する情報は、逆相同性 GitHub から取得されます。

EvoDiffの主な特徴

EvoDiff の主な機能は次のとおりです。

扱いやすいタンパク質配列を生成するために、EvoDiff は進化規模のデータと拡散モデルを組み合わせます。
EvoDiff は、構造的に妥当なタンパク質を多様化して、すべての可能な配列と機能をカバーできます。
EvoDiff は、構造ベースのモデルではアクセスできない無秩序な部分やその他の特徴を持つタンパク質を生成するだけでなく、機能的な構造モチーフのスキャフォールドも生成できるため、配列ベースの定式化の一般的な適用可能性を実証します。

EvoDiff は、進化規模のデータセットと拡散モデルを組み合わせて開発された、配列データのみからプログラム可能なタンパク質を作成するための新しい生成モデリングシステムです。これは離散拡散フレームワークを使用し、順方向プロセスがアミノ酸特性を変更することでタンパク質配列を反復的に破壊し、ニューラルネットワークによってパラメーター化された学習された逆方向プロセスが自然なフレームワークを利用して各反復で行われた変更を予測します。タンパク質は、アミノ酸の言語における個別のトークンの配列です。

図 1: 配列データのみから制御可能なタンパク質設計を行う EvoDiff。（出典：論文）

逆のアプローチを使用して、タンパク質配列をゼロから作成できます。 EvoDiff で使用される離散拡散定式化は、タンパク質構造設計で従来使用されてきた連続拡散定式化に比べて数学的に大幅に改善されています。多重配列アライメント (MSA) は、関連するタンパク質のグループのアミノ酸配列における保存パターンと変異を強調し、それによって単一のタンパク質配列データセットの進化のスケールを超えた進化のつながりを捉えます。この進化情報のさらなる深さを活用するために、MSA でトレーニングされた離散拡散モデルを構築し、新しい単一系統を生成します。

配列空間における調節可能なタンパク質の作成

調整可能なタンパク質設計における有効性を示すために、研究者らは、さまざまな生成キャンペーンプロファイルでシーケンスモデルと MSA モデル (それぞれ EvoDiff-Seq と EvoDiff-MSA) を調べました。

彼らは初めて、EvoDiff-Seq が自然界のタンパク質の構成と機能を正確に反映した高品質で多様なタンパク質を確実に生成できることを実証しました。 EvoDiff-MSA は、類似しているが異なる進化の歴史を持つタンパク質を整列させることにより、新しい配列の開発をガイドします。最後に、研究者らは、EvoDiff が IDR を持つタンパク質を確実に生成し、構造ベースの生成モデルの主要な制限を直接克服できること、また、拡散ベースのモデリングフレームワークの調節機能を活用することで、明示的な構造情報なしで機能的な構造モチーフのスキャフォールドを生成できることを示しています。

図 2: EvoDiff-MSA は進化ガイド配列の生成をサポートします。（出典：論文）

配列制約に基づいて制御された確率で多様な新しいタンパク質を生成するために、拡散モデリングフレームワークである EvoDiff を提案します。 EvoDiff は、構造ベースのタンパク質設計のパラダイムに挑戦し、配列データから本質的に無秩序な領域とスキャフォールド構造モチーフを生成することで、構造的に健全なタンパク質の多様性を無条件にサンプリングできます。

条件付けをガイドすることで、作成されたシーケンスは、望ましい品質を満たすように繰り返し調整することができ、これらの機能は将来の研究で追加することができます。 EvoDiff-D3PM フレームワークは、シーケンス内のすべての残基の ID を各デコードステップで編集できるため、ガイダンスによる条件付き制御に適しています。

しかし、研究者らは、OADM のノイズ除去タスクが D3PM よりも学習しやすいため、無条件生成では OADM が一般に D3PM よりも優れていることを観察しました。残念ながら、OADM やその他の既存の条件付き LRAR モデル (ProGen など) では、ガイダンスの有効性が低下します。 EvoDiff-D3PM の機能ターゲット (たとえば、配列機能分類子によって記述されるもの) を変調することにより、新しいタンパク質配列が生成されると考えられます。

EvoDiffはデータ要件が非常に低い

EvoDiff はデータ要件が非常に低いため、後続の使用に簡単に適応できます。これは、構造ベースのアプローチでのみ可能です。研究者らは、EvoDiff が微調整なしでインペインティングによって IDR を作成できるため、構造ベースの予測と生成モデルの典型的な落とし穴を回避できることを示しています。

図 3: EvoDiff は本質的に無秩序な領域を生成します。（出典：論文）

大規模なシーケンスデータセットの構造を取得するコストが高いため、研究者は、ディスプレイライブラリや大規模スクリーンなどのアプリケーション固有のデータセットで EvoDiff を微調整することで実現できる新しい生物学的、医学的、または科学的設計オプションを使用できない可能性があります。 AlphaFold および関連アルゴリズムは多くの配列の構造を予測できますが、点突然変異の検出が難しく、誤ったタンパク質の構造を示すことに自信過剰になる可能性があります。

次のステップ

要約すると、Microsoft の科学者は、配列ベースのタンパク質エンジニアリングと設計に使用できる一連の離散拡散モデルをリリースしました。 EvoDiff モデルは、構造または機能に基づくガイド付き設計を実行するように拡張でき、無条件、進化ガイド付き、条件付きのタンパク質配列作成にすぐに使用できます。彼らは、EvoDiff がタンパク質の言語で直接プロセスを読み書きすることで、プログラム可能なタンパク質作成の新たな可能性を切り開くことを期待しています。

「これは6億4000万パラメータのモデルに過ぎませんが、パラメータを数十億にまで拡大すれば、発電品質の向上が見られるかもしれません」とアラムダリ氏は語った。「私たちはいくつかの粗粒度の戦略を実証していますが、よりきめ細かい制御を実現するために、テキスト、化学情報、またはその他の手段に基づいて必要な機能を指定できるように EvoDiff を調整したいと考えています。」

次に、EvoDiff チームは、実験室で生成されたタンパク質に対してモデルをテストし、それが実行可能かどうかを判断する予定です。これが事実であれば、彼らは次世代フレームワークの開発を開始するでしょう。

<<: 大規模言語モデルが信頼できるかどうかを評価するにはどうすればよいでしょうか? 7つの次元はここにまとめられている

>>: LLaMA2コンテキストを10万に拡張し、MITと香港中文大学はLongLoRAメソッドを開発