マルチモーダル世界モデルで未来を予測！カリフォルニア大学バークレー校の新しいAIエージェントは人間の言語を正確に理解し、SOTAを刷新する

現在、強化学習ベースのエージェントは、「青いレンガを拾う」などの指示を簡単に実行できます。

しかし、ほとんどの場合、人間の言語表現は指示の範囲をはるかに超えています。たとえば、「牛乳が切れてしまったようです」...

インテリジェントエージェントにとって、世界におけるこの種の言語の意味を学習することは非常に困難です。

この点に関して、カリフォルニア大学バークレー校の研究チームは、これらの言語を実際に使用して、インテリジェントエージェントが将来をより正確に予測できるようにすることができると考えています。

論文アドレス: https://arxiv.org/pdf/2308.01399.pdf

具体的には、研究者らは新しいタイプのインテリジェントエージェント「Dynalang」を提案しました。

言語のみを使用してアクションを予測する従来のエージェントとは異なり、Dynalang は過去の言語を使用して将来の言語、ビデオ、報酬を予測することで、豊富な言語理解を獲得します。

Dynalang は、環境内でのオンラインインタラクションから学習するだけでなく、アクションや報酬なしで、テキスト、ビデオ、またはその両方のデータセットで事前トレーニングすることもできます。

つまり、新しいエージェントが今回「牛乳がなくなりました」と聞くと、その文が「冷蔵庫の牛乳がなくなった」という意味だと理解することになります。

仕組み

言語を使用して世界を理解することは、世界モデリングのパラダイムに自然に適合します。

Dynalang はモデルベースの RL エージェントである DreamerV3 をベースとしており、環境で動作しながら収集された経験的データを使用して継続的に学習できます。

左: ワールドモデルは、各タイムステップでテキストと画像を潜在表現に圧縮します。この表現から、モデルは元の観測を再構築し、報酬を予測し、次のタイムステップの表現を予測するようにトレーニングされます。直感的に、世界モデルは、テキストで読んだ内容に基づいて、世界で何が見られるかを学習します。

右: Dynalang は、圧縮された世界モデル表現に基づいてポリシーネットワークをトレーニングすることでアクションを選択します。想像上の世界のモデルで繰り返しトレーニングされ、予測される報酬を最大化する行動を取ることを学習します。

一度に 1 つの文または段落を処理する従来のマルチモーダルモデルとは異なり、Dynalang はビデオとテキストを統合されたシーケンスとしてモデル化し、一度に 1 つの画像フレームと 1 つのテキストトークンを処理します。

直感的に言えば、これは人間が現実世界で入力を受け取る方法に似ています。

すべてをシーケンスとしてモデル化することで、言語モデルのようなテキストデータで事前トレーニングできるようになり、強化学習のパフォーマンスが向上します。

言語のヒント

環境内でのエージェントのパフォーマンスを評価するために、研究者は HomeGrid を導入しました。タスクの指示に加えて、エージェントは言語プロンプトも受け取ります。

HomeGrid のプロンプトは、エージェントが人間から学習したりテキストから読み取ったりする知識をシミュレートするだけでなく、タスクの解決には役立つが必須ではない情報も提供します。

- 「将来の観察」：「皿はキッチンにある」など、エージェントが将来観察する可能性のあるものを説明します。

- 「修正」: 「向きを変える」など、エージェントが実行しているタスクに基づいてインタラクティブなフィードバックを提供します。

- 「ダイナミクス」: 「ペダルを踏んで堆肥箱を開ける」など、環境のダイナミクスを説明します。

エージェントは、観察とテキストの対応を区別するための明示的な指示を受けていません。しかし、Dynalang は将来の予測目標を通じて、さまざまな種類の言語を環境と関連付けることを学習することができます。

結果は、言語条件付けにおいて Dynalang が IMPALA および R2D2 よりも大幅に優れていることを示しています。

後者は、さまざまな種類の言語に苦労しただけでなく、指示に指定されている言語以外の言語を使用した場合のパフォーマンスもさらに悪くなりました。

ゲーム評価

メッセンジャーのゲーム環境で、研究者たちは、テキストと視覚的観察の間で複数の推論ホップを必要とする、より長く複雑なテキストからエージェントがどのように学習できるかをテストしました。

エージェントは、各エピソードのダイナミクスを説明するテキスト記述を推論し、それを環境内のエンティティの観察と組み合わせて、どのエンティティからメッセージを取得し、どのエンティティを避けるかを決定する必要があります。

結果は、Dynalang が、特に最も困難なステージ 3 において、テキストと観察に基づく推論タスクに最適化された特殊なアーキテクチャを使用する IMPALA および R2D2、さらに EMMA ベースラインを大幅に上回ることを示しています。

従うべき指示

Habitat のテスト結果では、Dynalang が現実的な視覚的観察を処理し、指示を実行できることが示されています。

つまり、エージェントは自然言語の指示に従って自宅の目的の場所まで移動する必要があります。

Dynalang では、指示に従うことを将来の報酬の予測と見なすことで、同じ予測フレームワークで均一に扱うことができます。

言語生成

言語がエージェントの見るものについての予測に影響を与えるのと同様に、エージェントが観察するものは、エージェントが聞くと期待する言語（たとえば、エージェントが見るものについての真の陳述）に影響を与えます。

LangRoom のアクションスペースに言語を出力することで、Dynalang は環境に関連付けられた言語を生成し、特定の質問への回答を実行できます。

テキスト事前トレーニング

言語を使用して世界モデルを構築することと、世界モデルを使用してアクションを学習することは別であるため、Dynalang はアクションや報酬のラベルなしでオフラインデータを使用して事前トレーニングできます。

この機能により、Dynalang は単一のモデルアーキテクチャ内で大規模なオフラインデータセットを活用できるようになります。

研究者たちは、プレーンテキストデータを使用して Dynalang を事前トレーニングし、トークンの埋め込みをゼロから学習しました。

一般的なテキストデータ (TinyStories、200 万の短編小説) で事前トレーニングした後、モデルは Messenger での下流の RL タスクのパフォーマンスを向上させ、事前トレーニング済みの T5 埋め込みのパフォーマンスを上回ることさえあります。

この作業はエージェントが言語を理解してアクションを実行できるようにすることに重点を置いていますが、プレーンテキスト言語モデルのようにテキストを生成することも可能になります。

研究者たちは、潜在空間で事前トレーニング済みの TinyStories モデルをサンプリングし、各タイムステップでの表現からトークンの観測をデコードしました。

結果は、モデルによって生成された結果が驚くほど一貫していることを示していますが、それでも SOTA 言語モデルよりも品質が低いです。

しかし、このことから、言語生成とアクションを単一のインテリジェントエージェントアーキテクチャに統合することが興味深い研究方向であることもわかります。

著者について

ジェシー・リン

論文の筆頭著者であるジェシー・リン氏は、カリフォルニア大学バークレー校のバークレーAI研究所でアンカ・ドラガン氏とダン・クライン氏の指導を受ける博士課程3年生である。

彼女の研究対象は、人間と協力し、対話できる言語を介したインテリジェントエージェントの構築です。彼女は対話と言語+強化学習にも興味を持っています。現在、彼女の研究は Apple AI Fellowship によってサポートされています。

彼女はMITでコンピューターサイエンスと哲学の二重学位を取得しました。そこで彼女は、ケルシー・アレンとジョシュ・テネンバウムの指導の下、計算認知科学グループで人間にヒントを得た AI 研究に取り組むとともに、Labsix の創設メンバーとして機械学習のセキュリティ研究も行いました。

さらに、彼女は Lilt で、人間と機械の共同作業による機械翻訳/専門家による翻訳のための Copilot の研究と製品開発に携わりました。

<<: エッジAIとは何ですか?

>>: フーリエ演算子効率トークンミキサー: 軽量ビジュアルネットワークの新しいバックボーン

ブログ

スタンフォード大学のAIアルゴリズムは死を予測できる！これはホスピスにとって良いことかもしれない…

マルチモーダル世界モデルで未来を予測！カリフォルニア大学バークレー校の新しいAIエージェントは人間の言語を正確に理解し、SOTAを刷新する

仕組み

言語のヒント

ゲーム評価

従うべき指示

言語生成

テキスト事前トレーニング

著者について

スタンフォード大学のAIアルゴリズムは死を予測できる！これはホスピスにとって良いことかもしれない…

機械学習における線形代数の理解に役立つ 10 の例

AI革命：大人になったら仕事がないかもしれない

TransformerはAI分野を支配するのでしょうか？結論を出すのは時期尚早だ

ChatGPTが危険にさらされています! 「Attention Formula」の8年前の謎のバグが初めて暴露、Transformerモデルに大きな影響が出る可能性

注目に値する5つの高度なコード補完サービス

ジェネレーティブ AI がデジタル変革の優先事項に与える影響

人工知能チュートリアル（II）：人工知能の歴史とマトリックスの再考

推薦する

変革は効果的であり、スマートな行動は効果的です。レノボ・エンタープライズ・テクノロジー・グループが10の業界のインテリジェントな変革に関するホワイトペーパーを発表

Pudu Technology、新製品「Hulu」をリリース、4月19日より先行販売開始

AI ワールド: 2018 年に注目すべき 8 つの AI トレンド

2018 年の AI にとって重要なマイルストーンは何でしたか? 2019年に何が起こるでしょうか?

データが少なすぎる場合はどうすればいいですか?履歴書トレーニングのための新しいツール、自己教師学習を試してみましょう

中国の博士が強化学習を使ってSpaceXのロケットを回収

機械学習におけるデータ不均衡の問題を解決する方法

最高裁：ビジネス施設での顔認識の乱用は侵害である

自律的で制御可能なAIフレームワークは信頼性が高いが、すべてのAIコンピューティングセンターが同等というわけではない

人工知能：人種差別との戦いにおける次のフロンティア？

IBMの新しいデータ分析アルゴリズムは、20分で9TBのデータを分析できる

人工知能技術はスマートシティの未来となるのでしょうか?

Google、AIコードエディタIDXをリリース：クラウド仮想マシンで開発環境の構成を簡素化

アリババがAIを使ってカップルをテスト：ルー・ハンとグアン・シャオトンのテストスコアは笑える