いくつかの文章を入力すると、分子を生成できます。分子を見ると、説明文も生成されます。謎に包まれた Google X により、マルチモーダル AI がブラック テクノロジーになりました。

いくつかの文章を入力すると、分子を生成できます。分子を見ると、説明文も生成されます。謎に包まれた Google X により、マルチモーダル AI がブラック テクノロジーになりました。

医師が患者を治療するための薬を説明するために数文を書くと、AI が必要な薬の正確な構造を自動的に生成することを想像してください。まるでSFのように聞こえるが、自然言語と分子生物学の交差点における進歩により、いつか現実になるかもしれない。従来、医薬品の開発は分子構造の手作業による設計と構築に頼っていることが多く、新薬を市場に出すには10億ドル以上の費用と10年以上かかることもあります(Gaudelet et al.、2021)。

最近、化学情報科学とも呼ばれる分野では、ディープラーニングツールを使用して計算薬物設計を改善することに大きな関心が寄せられています (Rifaioglu et al.、2018)。しかし、これらの実験のほとんどは、依然として分子とその低レベルの特性(logP、オクタノール/水分配係数など)のみに焦点を当てています。将来的には、自然言語を通じて簡単に実現できる、分子設計に対するより高度な制御が必要になります。

イリノイ大学アーバナ・シャンペーン校と Google X の研究者は、1) 分子の説明を生成すること、2) テキストからのガイダンスに従って分子をゼロから生成すること、という 2 つの新しいタスクを提案することで、この研究目標に取り組んでいます。

論文アドレス: http://blender.cs.illinois.edu/paper/molt5.pdf

下の図に示すように、テキストガイドによる分子生成タスクは、与えられた自然言語の説明に一致する分子を作成することであり、これにより複数の科学分野の研究が加速されます。

マルチモーダル モデルの分野では、自然言語処理とコンピューター ビジョン (V+L) の交差点が広く研究されてきました。自然言語を通じて画像の意味レベルの制御を実現する上で一定の進歩が遂げられており、マルチモーダル データとモデルに対する関心が高まっています。

本研究で提案された分子言語タスクは、V+Lタスクといくつかの類似点がありますが、いくつかの特別な難しさもあります。1) 分子の注釈を作成するには多くの専門知識が必要です。2) そのため、多数の分子説明ペアを取得することは困難です。3) 同じ分子に多くの機能があり、複数の異なる説明が必要になる可能性があるため、4) 既存の評価指標(BLEUなど)ではこれらのタスクを適切に評価できません。

データ不足の問題に対処するため、本研究では、事前トレーニング済みの多言語モデルの最新の進歩(Devlin et al.、2019; Liu et al.、2020)に触発された新しい自己教師あり学習フレームワークMolT5(Molecular T5)を提案しました。 MolT5 はまず、単純なノイズ除去の目的を使用して、大量のラベルのない自然言語テキストと分子文字列でモデルを事前トレーニングします。その後、事前トレーニング済みモデルは、限定されたゴールド スタンダード注釈に基づいて微調整されます。

さらに、分子記述や生成モデルを完全に評価するために、この研究では Text2Mol と呼ばれる新しい指標を提案しました (Edwards et al.、2021)。 Text2Mol は検索モデルを再利用して、実際の分子/説明と生成された説明/分子間の類似性を個別に評価します。

マルチモーダルテキスト - 分子表現モデル MolT5

研究者はインターネットから大量の自然言語テキストをスクレイピングできます。たとえば、Raffel ら (2019) は、700 GB を超える比較的クリーンな自然な英語テキストを含む Common Crawl ベースのデータセットを構築しました。一方、ZINC-15などの公開データベースからは、10億個を超える分子のデータセットを入手することもできます。本研究では、大規模な事前トレーニングの最近の進歩に触発され、大量のラベルなし自然言語テキストと分子文字列を利用できる新しい自己教師あり学習フレームワーク MolT5 (Molecular T5) を提案します。

図 3 は MolT5 アーキテクチャの図です。この研究では、まず、T5.1.1 (T5 の改良版) の公開チェックポイントの 1 つを使用して、エンコーダー/デコーダー Transformer モデルを初期化しました。その後、研究者らは「破損したスパンを置き換える」という目標を使用してモデルを事前トレーニングしました。具体的には、各事前トレーニング ステップで、この研究では自然言語シーケンスと SMILES シーケンスを含むミニバッチをサンプリングします。研究者は各シーケンスごとに、シーケンス内のいくつかの単語をランダムに選択して変更しました。連続する各スパン内の破損したトークンは、センチネル トークンに置き換えられます (図 3 の [X] と [Y] で示すように)。次のタスクは、ドロップアウトされたスパンを予測することです。

分子(たとえば、SMILES 文字列によって表される)は、非常に独特な構文を持つ言語と考えることができます。直感的に言えば、この研究の事前トレーニング段階では、本質的には 2 つの異なる言語からの 2 つの単一言語コーパスで言語モデルをトレーニングしており、2 つのコーパスの間には明示的な整合はありません。このアプローチは、mBERT や mBART などの多言語モデルの事前トレーニング方法に似ています。 mBERT などのモデルは優れたクロスリンガル機能を実証しているため、この研究では、MolT5 で事前トレーニングされたモデルがテキストから分子への翻訳タスクにも役立つことが期待されています。

事前トレーニング後、事前トレーニング済みモデルは分子のキャプション作成または生成用に微調整できます (図 3 の下部を参照)。分子生成では、入力は説明であり、出力はターゲット分子の SMILES 表現です。一方、分子記述では、入力は分子の SMILES 文字列であり、出力は入力分子を記述するテキストです。

実験結果

下の表 1 は分子の説明に関するテスト結果を示しています。この研究では、T5 や MolT5 などの大規模な事前トレーニング済みモデルは、分子を説明する現実的な言語を生成する上で、Transformer や RNN よりもはるかに優れていることがわかりました。

下の図 5 は、さまざまなモデル出力の例をいくつか示しています。

さまざまなモデルから生成された結果の例 (抜粋)。

一般に、分子生成では RNN モデルが Transformer モデルよりも優れていますが、分子記述タスクでは、大規模な事前トレーニング済みモデルが RNN モデルや Transformer モデルよりも優れたパフォーマンスを発揮します。モデルのサイズと事前トレーニングデータを拡大するとパフォーマンスが大幅に向上することはよく知られていますが、この研究の結果はそれでも驚くべきものです。

たとえば、テキスト データのみで事前トレーニングされたデフォルトの T5 モデルは、RNN よりも真実に近い分子を生成でき、一般的に効果的です。そして、この傾向は言語モデルのサイズが拡大しても持続し、7億7000万のパラメータを持つT5-largeは、6000万のパラメータを持つ特別に事前トレーニングされたMolT5-smallよりも優れています。それでも、MolT5 での事前トレーニングにより、一部の分子生成結果がわずかに改善され、特に有効性が大幅に向上します。

下の図 4 はモデルの結果を示しており、入力の説明ごとに番号が付けられています。実験により、MolT5 は分子を操作するための指示を T5 よりもよく理解できることがわかりました。

さまざまなモデルによって生成された分子の例のプレゼンテーション。

<<:  人工知能システムにおける不確実性の定量化

>>:  XiaoIce 技術担当副社長、周 立氏: AI 対話がメタバースの新たな未来を切り開く

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

35 歳の技術者が管理職に転身するにはどうすればいいでしょうか?アリババの上級アルゴリズム専門家が10の考えを明かす

[[313295]] 35歳前後というのはエンジニアにとって珍しい年齢です。技術者は、純粋に技術的な...

...

...

顔認識の応用シナリオは拡大し続けています。顔スキャンは便利で安全である必要があります。

[[341456]]顔スキャンでロック解除、顔スキャンで支払い、顔スキャンでキャンパスに入る......

マイクロソフト、データセンターに十分なAIチップが供給されない場合、サービスが中断すると警告

7月29日のニュース、海外メディアの報道によると、マイクロソフトは投資家に対し、グラフィックス・プロ...

機械学習モデルが公平かどうかを簡単に確認する方法

[[361220]] [51CTO.com クイック翻訳] 私たちはますます分断が進む世界に住んでい...

315人の完全なリストが公開: インターネットの蛮行は終結すべき

2022 315 ガラは、3 月 15 日午後 8 時に予定通り開催されます。今年の315ガラは「...

ガウス混合モデルを用いた多峰性分布の分離

この記事では、ガウス混合モデルを使用して 1 次元の多峰性分布を複数の分布に分割する方法を説明します...

GenAIがゼロトラスト環境でサイバーセキュリティを強化する方法

GenAI に対する信頼はまちまちです。 VentureBeat は最近、製造業とサービス業の複数の...

高度な自動運転システムの設計・開発からソフトウェアの導入まで

上記の記事では、SOA 全体のアーキテクチャ特性、実装基盤、アプリケーションの利点、開発プロセスにつ...

AIチップのスタートアップ企業CambrianがシリーズB資金調達で数億ドルの完了を発表

本日、AIチップのスタートアップ企業Cambrianが数億ドルのBラウンド資金調達を完了した。資金調...

持続可能なテクノロジー: 2024 年のテクノロジートレンドにおけるグリーンイノベーション

急速に進化するテクノロジーの世界では、イノベーションこそが私たちを持続可能な未来へと導く原動力となり...

将来の人工知能戦争の運用概念に関する研究

[[390910]]このレポートでは、将来の AI 戦争における作戦レベルの防御と攻撃の概念を提案し...