いくつかの文章を入力すると、分子を生成できます。分子を見ると、説明文も生成されます。謎に包まれた Google X により、マルチモーダル AI がブラックテクノロジーになりました。

医師が患者を治療するための薬を説明するために数文を書くと、AI が必要な薬の正確な構造を自動的に生成することを想像してください。まるでSFのように聞こえるが、自然言語と分子生物学の交差点における進歩により、いつか現実になるかもしれない。従来、医薬品の開発は分子構造の手作業による設計と構築に頼っていることが多く、新薬を市場に出すには10億ドル以上の費用と10年以上かかることもあります（Gaudelet et al.、2021）。

最近、化学情報科学とも呼ばれる分野では、ディープラーニングツールを使用して計算薬物設計を改善することに大きな関心が寄せられています (Rifaioglu et al.、2018)。しかし、これらの実験のほとんどは、依然として分子とその低レベルの特性（logP、オクタノール/水分配係数など）のみに焦点を当てています。将来的には、自然言語を通じて簡単に実現できる、分子設計に対するより高度な制御が必要になります。

イリノイ大学アーバナ・シャンペーン校と Google X の研究者は、1) 分子の説明を生成すること、2) テキストからのガイダンスに従って分子をゼロから生成すること、という 2 つの新しいタスクを提案することで、この研究目標に取り組んでいます。

論文アドレス: http://blender.cs.illinois.edu/paper/molt5.pdf

下の図に示すように、テキストガイドによる分子生成タスクは、与えられた自然言語の説明に一致する分子を作成することであり、これにより複数の科学分野の研究が加速されます。

マルチモーダルモデルの分野では、自然言語処理とコンピュータービジョン (V+L) の交差点が広く研究されてきました。自然言語を通じて画像の意味レベルの制御を実現する上で一定の進歩が遂げられており、マルチモーダルデータとモデルに対する関心が高まっています。

本研究で提案された分子言語タスクは、V+Lタスクといくつかの類似点がありますが、いくつかの特別な難しさもあります。1) 分子の注釈を作成するには多くの専門知識が必要です。2) そのため、多数の分子説明ペアを取得することは困難です。3) 同じ分子に多くの機能があり、複数の異なる説明が必要になる可能性があるため、4) 既存の評価指標(BLEUなど)ではこれらのタスクを適切に評価できません。

データ不足の問題に対処するため、本研究では、事前トレーニング済みの多言語モデルの最新の進歩（Devlin et al.、2019; Liu et al.、2020）に触発された新しい自己教師あり学習フレームワークMolT5（Molecular T5）を提案しました。 MolT5 はまず、単純なノイズ除去の目的を使用して、大量のラベルのない自然言語テキストと分子文字列でモデルを事前トレーニングします。その後、事前トレーニング済みモデルは、限定されたゴールドスタンダード注釈に基づいて微調整されます。

さらに、分子記述や生成モデルを完全に評価するために、この研究では Text2Mol と呼ばれる新しい指標を提案しました (Edwards et al.、2021)。 Text2Mol は検索モデルを再利用して、実際の分子/説明と生成された説明/分子間の類似性を個別に評価します。

マルチモーダルテキスト - 分子表現モデル MolT5

研究者はインターネットから大量の自然言語テキストをスクレイピングできます。たとえば、Raffel ら (2019) は、700 GB を超える比較的クリーンな自然な英語テキストを含む Common Crawl ベースのデータセットを構築しました。一方、ZINC-15などの公開データベースからは、10億個を超える分子のデータセットを入手することもできます。本研究では、大規模な事前トレーニングの最近の進歩に触発され、大量のラベルなし自然言語テキストと分子文字列を利用できる新しい自己教師あり学習フレームワーク MolT5 (Molecular T5) を提案します。

図 3 は MolT5 アーキテクチャの図です。この研究では、まず、T5.1.1 (T5 の改良版) の公開チェックポイントの 1 つを使用して、エンコーダー/デコーダー Transformer モデルを初期化しました。その後、研究者らは「破損したスパンを置き換える」という目標を使用してモデルを事前トレーニングしました。具体的には、各事前トレーニングステップで、この研究では自然言語シーケンスと SMILES シーケンスを含むミニバッチをサンプリングします。研究者は各シーケンスごとに、シーケンス内のいくつかの単語をランダムに選択して変更しました。連続する各スパン内の破損したトークンは、センチネルトークンに置き換えられます (図 3 の [X] と [Y] で示すように)。次のタスクは、ドロップアウトされたスパンを予測することです。

分子（たとえば、SMILES 文字列によって表される）は、非常に独特な構文を持つ言語と考えることができます。直感的に言えば、この研究の事前トレーニング段階では、本質的には 2 つの異なる言語からの 2 つの単一言語コーパスで言語モデルをトレーニングしており、2 つのコーパスの間には明示的な整合はありません。このアプローチは、mBERT や mBART などの多言語モデルの事前トレーニング方法に似ています。 mBERT などのモデルは優れたクロスリンガル機能を実証しているため、この研究では、MolT5 で事前トレーニングされたモデルがテキストから分子への翻訳タスクにも役立つことが期待されています。

事前トレーニング後、事前トレーニング済みモデルは分子のキャプション作成または生成用に微調整できます (図 3 の下部を参照)。分子生成では、入力は説明であり、出力はターゲット分子の SMILES 表現です。一方、分子記述では、入力は分子の SMILES 文字列であり、出力は入力分子を記述するテキストです。

実験結果

下の表 1 は分子の説明に関するテスト結果を示しています。この研究では、T5 や MolT5 などの大規模な事前トレーニング済みモデルは、分子を説明する現実的な言語を生成する上で、Transformer や RNN よりもはるかに優れていることがわかりました。

下の図 5 は、さまざまなモデル出力の例をいくつか示しています。

さまざまなモデルから生成された結果の例 (抜粋)。

一般に、分子生成では RNN モデルが Transformer モデルよりも優れていますが、分子記述タスクでは、大規模な事前トレーニング済みモデルが RNN モデルや Transformer モデルよりも優れたパフォーマンスを発揮します。モデルのサイズと事前トレーニングデータを拡大するとパフォーマンスが大幅に向上することはよく知られていますが、この研究の結果はそれでも驚くべきものです。

たとえば、テキストデータのみで事前トレーニングされたデフォルトの T5 モデルは、RNN よりも真実に近い分子を生成でき、一般的に効果的です。そして、この傾向は言語モデルのサイズが拡大しても持続し、7億7000万のパラメータを持つT5-largeは、6000万のパラメータを持つ特別に事前トレーニングされたMolT5-smallよりも優れています。それでも、MolT5 での事前トレーニングにより、一部の分子生成結果がわずかに改善され、特に有効性が大幅に向上します。

下の図 4 はモデルの結果を示しており、入力の説明ごとに番号が付けられています。実験により、MolT5 は分子を操作するための指示を T5 よりもよく理解できることがわかりました。

さまざまなモデルによって生成された分子の例のプレゼンテーション。

<<: 人工知能システムにおける不確実性の定量化

>>: XiaoIce 技術担当副社長、周立氏: AI 対話がメタバースの新たな未来を切り開く

いくつかの文章を入力すると、分子を生成できます。分子を見ると、説明文も生成されます。謎に包まれた Google X により、マルチモーダル AI がブラックテクノロジーになりました。

マルチモーダルテキスト - 分子表現モデル MolT5

実験結果

検索拡張生成による AI 幻覚問題の解決

テスラがテスラAIのTwitterアカウントを開設、Dojoスーパーコンピューターの生産を来月開始すると発表

人工知能の実装によるIoTセキュリティの最適化

マスク氏：AIの開発を止める人はいない。この呼びかけは、みんなに注意を払うよう思い出させるだけだ

Apple Watchも新型コロナウイルスを検知可能：症状が出る7日前に検知可能

カーリー：プロのカーリング選手に匹敵するスポーツロボット

AI は、市場にスパムを氾濫させ、情報を捏造することを学習します。 Google の新しい調査で、現実世界の AI アプリケーションの落とし穴が明らかに

ポストSORA時代において、CV実践者はどのようにモデルを選択するのでしょうか?畳み込みまたはViT、教師あり学習またはCLIPパラダイム

表形式データでの機械学習に特徴抽出を使用する方法

推薦する

ChatGPTの曖昧な問題への対応力を高める方法についてお話ししましょう

ChatGPTはPyTorchなしでは構築できません。LeCunの発言は白熱した議論を引き起こしました。モデルメーカーが重量を公開しない理由は、

人工知能のジレンマ：人々の疑問を払拭できない

アルゴリズムの質問: 計算された π の値が正確かどうかをどのように判断するのでしょうか?

マイクロソフト、AIを活用してがんの放射線治療時間を短縮：スキャン速度が2.5倍に向上、精度は90％に

Yuejiang TechnologyはSonghe CapitalからA+ラウンドの資金調達で1億人民元を受け取りました。この資金は、インテリジェントロボットアームなどの分野の研究開発に使用されます。

Google、3年ぶりの検索エンジンアルゴリズムの改良を発表

AI開発シンポジウム：機械学習を農家に役立てる方法について議論

AIは音楽業界をどのように変えているのでしょうか?

日本の女性型ロボットは人気があります。本物の人間のようで、「生殖」の機能も持っています。

NvidiaはAIでの成功を量子コンピューティングに応用しようとしている

生成 AI 規制: 「ディープフェイク技術」は大規模言語モデルの自由意志を実証するか?