オープンソース！香港中文大学、MIT、復旦大学が初のRNA基礎モデルを提案

タンパク質分野とは異なり、RNA 分野の研究では十分な注釈付きデータが不足していることがよくあります。たとえば、3D データには 1,000 個を超える RNA しかありません。これにより、RNA 構造機能予測タスクにおける機械学習手法の開発が大きく制限されます。

注釈付きデータの不足を補うために、この記事では、さまざまな RNA 研究に豊富な構造的および機能的知識を提供できる基礎モデルである RNA 基礎モデル (RNA-FM) を紹介します。 RNA-FM は、2,300 万のラベルなし RNA 配列に基づいて教師なし方式でトレーニングされた世界初の RNA コーナーストーンモデルであり、RNA 配列に含まれる進化的および構造的パターンを明らかにしました。

注目すべきは、RNA-FM は、二次構造予測の 20% の改善や距離グラフ予測の 30% の改善など、多くの下流タスクで SOTA をはるかに上回るパフォーマンスを達成するために、単純な下流モデルと一致させるか、埋め込みのみを提供する必要があることです。大規模な実験により、このモデルは極めて一般化可能であり、COVID-19やmRNAの調節断片にも使用できることが実証されました。

プレプリント: https://arxiv.org/abs/2204.00300
コードとモデル: https://github.com/ml4bio/RNA-FM
サーバー: https://proj.cse.cuhk.edu.hk/rnafm

導入

近年、ディープラーニングに基づく生物学的コンピューティング手法は、タンパク質の分野で画期的な進歩を遂げています。最も有名なマイルストーンは、Google DeepMind チームが開発したエンドツーエンドのタンパク質 3D 構造予測フレームワークである AlphaFold2 です。しかし、タンパク質は数ある生体分子のうちの1つに過ぎません。タンパク質生成の源である遺伝子（DNA/RNA）は、タンパク質よりも多くの基本情報を含んでおり、より重要な研究価値を持っています。

一般的に、タンパク質はコーディングRNA（mRNAとも呼ばれる）からの翻訳産物です。固定されたmRNAは固定されたタンパク質配列に翻訳されます。実際、コーディングに使用される RNA のこの部分は、すべての RNA 配列の 2% のみを占め、残りの 98% は非コーディング RNA (ncRNA) です。 ncRNA はタンパク質に直接「翻訳」されるわけではありませんが、特定の機能を持つ三次構造に折り畳まれ、mRNA やその他の生物学的機能の翻訳プロセスにおいて調節的な役割を果たします。したがって、ncRNA の構造と機能を分析することは、タンパク質の分析よりも基本的で複雑な研究です。

しかし、計算手法が成熟しているタンパク質分野と比較すると、RNAに基づく構造・機能予測はまだ初期段階にあり、本来タンパク質分野に適用可能な計算手法をそのままRNA分野に転用することは困難です。これらの計算方法の主な制限は、RNA データのアノテーションは通常取得が難しく、少量のデータのアノテーションを完了するのに多くの実験リソースと時間がかかることです。ただし、ほとんどの計算方法では、高いパフォーマンスを実現するために、大量のラベル付きデータを監視する必要があります。注釈付きのデータは多くありませんが、RNA 分野では実際には注釈なしの配列データが大量に蓄積されています。この論文の方法は、これらのラベルなしデータを使用することで、さまざまな下流のタスクに追加の有効な情報を提供することです。

この考慮に基づいて、香港中文大学、MIT、復旦大学、上海人工知能研究所のチームは、2,300万のラベルなしの純粋なRNA配列で教師なし方式でトレーニングされたRNA基礎モデル（RNA-FM）を提案しました。データはトレーニングプロセス中に注釈情報を提供しませんでしたが、RNA-FM はこれらの RNA 配列に含まれる進化的および構造的パターンを教師なし方式でマイニングしました。

RNA-FM を下流の RNA 構造および機能予測タスクに効果的に適用できれば、これらの計算方法は RNA-FM によって要約された知識から確実に恩恵を受け、パフォーマンスの向上を達成できます。 RNA-FM の上流事前トレーニングと下流移行およびアプリケーションフレームワークを下図に示します。

研究概要

事前学習済みのRNA-FMが大量のラベルなしデータから「知識」を学習したかどうか、またどのような「知識」を学習したかを確認するために、論文では埋め込みに関する一連の分析を実施しました。

まず、UMAP を介してさまざまな特徴の単純なクラスタリング比較を直接実行し、事前トレーニング済みの RNA-FM からの埋め込みが他の埋め込みよりも明白な RNA 種のクラスターを形成することを発見しました。これは、RNA-FM 埋め込みに RNA 種を区別するための構造的または機能的情報が含まれていることを意味します。

次に、この論文では、RNA-FM 埋め込みによる軌跡推論を使用して、さまざまな種の lncRNA の進化を予測します。下の図のストリームプロットから、種間の進化の予測疑似時間は実際の種の進化情報とほぼ一致していることがわかります。これは、RNA-FM 埋め込みにも進化情報が含まれていることを示しています。

RNA-FM は、トレーニング中に RNA 種コミュニティ情報または lncRNA 進化情報のラベルに直接さらされたことがないことに注意してください。 RNA-FM は、純粋な配列から構造、機能、進化に関連するパターンを完全に自己監視方式で発見します。

さらなる実験結果

この論文では、RNA-FMの埋め込みを直接解析するだけでなく、二次構造、接触予測、距離予測、三次構造予測など、さまざまな下流RNA構造予測タスクにRNA-FMを導入することを試み、大幅な改善を達成しました。

特に二次構造予測では、この記事では RNA-FM をバックボーンとして使用し、下流モデルとして単純な ResNet ネットワークのみを使用して、2 つの公開データセットで他の 12 の最先端の方法を上回り、F1 スコアで最高の UFold を 3 ～ 5 パーセントポイント上回りました。UFold と直接比較すると、RNA-FM はほとんどの RNA カテゴリで UFold を上回ります。 RNA-FM と E2Efold を組み合わせると、パフォーマンスがさらに 5% 向上します。

このモデルの実用価値を検証するために、本論文ではRNA-FMを使用してCOVID-19データの包括的な分析を実施し、RNA-FMを使用してCOVID-19参照ゲノム（29870 nt）の主要な制御要素を正確に予測し、RNA-FM埋め込みを使用して主要なCOVID-19変異体の進化傾向を大まかに予測しました。

一般的に、分子の構造がその機能を決定します。RNA-FM は RNA 構造予測タスクを非常にうまく実行できるため、RNA-FM を使用して機能予測の結果を向上させることもできますか?

したがって、本論文では、RNA-FM 埋め込みを使用して RNA-タンパク質相互作用を予測するなど、下流の RNA 機能予測タスクに RNA-FM を導入することをさらに試みています。

実験では、RNA-FM 埋め込みを導入するとモデルのパフォーマンスが向上することが示されており、いくつかの例では、入力された実際の二次構造情報と一致する予測結果が得られることさえあります。

ncRNA に基づいてトレーニングされた RNA-FM が他の RNA に一般化できるかどうかを調べるために、この記事では最後に、 RNA-FM を使用して mRNA 上の 5'UTR に基づいてタンパク質発現の機能を予測することを試みます。 mRNA は ncRNA に属していませんが、その上の 5'UTR は翻訳されないが調節機能を持つ領域であり、ncRNA の特性に準拠しているため、トレーニングデータには表示されません。

下の図からわかるように、RNA-FM 埋め込みを含むモデルは、それを含まないモデルよりも常に優れています。パフォーマンスの向上は比較的限られているものの、RNA-FM が非 ncRNA データに対しても一定の一般化能力を持っていることも部分的に示しています。

結論は

一般的に、この記事では、ラベルなしの RNA 配列データを使用して言語モデル RNA-FM を事前トレーニングし、構造や機能などの一連の異なるタスクを直接的または間接的に包括的に検証し、RNA-FM が下流のタスクにおける計算方法のパフォーマンスを実際に効果的に向上できることを証明します。

RNA-FMの登場により、現在のRNAアノテーションデータの不足がある程度緩和され、他の研究者に大量のラベルなしデータに便利にアクセスするためのインターフェースが提供されました。RNA分野の基本モデルとして、この分野のさまざまな研究に強力なサポートと支援を提供します。

著者について

この記事には 2 人の共同筆頭著者がいます。チェン・ジアヤンは香港中文大学の研究助手です。胡志航は香港中文大学の博士課程の学生です。

この記事には2人の著者がいます。 Sun Siqi 氏は、復旦大学知能複雑系研究室および上海人工知能研究所の若手研究者です。彼のホームページは https://intersun.github.io です。

リー・ユー氏は、香港中文大学の助教授、MIT ジェームズ・コリンズ研究所の客員助教授、MIT とハーバード大学のブロード研究所の研究科学者、ハーバード大学ワイス研究所の客員研究員であり、フォーブス誌の 30 Under 30 Asia リストの 2022 年ヘルスケア & サイエンス部門に選出されています。ホームページ：https://liyu95.com.

<<: AIの成功には適切なデータアーキテクチャが必要

>>: 太陽光発電や風力発電に AI はメリットをもたらすのでしょうか?