現在、強化学習ベースのエージェントは、「青いレンガを拾う」などの指示を簡単に実行できます。 しかし、ほとんどの場合、人間の言語表現は指示の範囲をはるかに超えています。たとえば、「牛乳が切れてしまったようです」... インテリジェントエージェントにとって、世界におけるこの種の言語の意味を学習することは非常に困難です。 この点に関して、カリフォルニア大学バークレー校の研究チームは、これらの言語を実際に使用して、インテリジェントエージェントが将来をより正確に予測できるようにすることができると考えています。 論文アドレス: https://arxiv.org/pdf/2308.01399.pdf 具体的には、研究者らは新しいタイプのインテリジェントエージェント「Dynalang」を提案しました。 言語のみを使用してアクションを予測する従来のエージェントとは異なり、Dynalang は過去の言語を使用して将来の言語、ビデオ、報酬を予測することで、豊富な言語理解を獲得します。 Dynalang は、環境内でのオンライン インタラクションから学習するだけでなく、アクションや報酬なしで、テキスト、ビデオ、またはその両方のデータセットで事前トレーニングすることもできます。 つまり、新しいエージェントが今回「牛乳がなくなりました」と聞くと、その文が「冷蔵庫の牛乳がなくなった」という意味だと理解することになります。 仕組み言語を使用して世界を理解することは、世界モデリングのパラダイムに自然に適合します。 Dynalang はモデルベースの RL エージェントである DreamerV3 をベースとしており、環境で動作しながら収集された経験的データを使用して継続的に学習できます。 左: ワールド モデルは、各タイム ステップでテキストと画像を潜在表現に圧縮します。この表現から、モデルは元の観測を再構築し、報酬を予測し、次のタイムステップの表現を予測するようにトレーニングされます。直感的に、世界モデルは、テキストで読んだ内容に基づいて、世界で何が見られるかを学習します。 右: Dynalang は、圧縮された世界モデル表現に基づいてポリシー ネットワークをトレーニングすることでアクションを選択します。想像上の世界のモデルで繰り返しトレーニングされ、予測される報酬を最大化する行動を取ることを学習します。 一度に 1 つの文または段落を処理する従来のマルチモーダル モデルとは異なり、Dynalang はビデオとテキストを統合されたシーケンスとしてモデル化し、一度に 1 つの画像フレームと 1 つのテキスト トークンを処理します。 直感的に言えば、これは人間が現実世界で入力を受け取る方法に似ています。 すべてをシーケンスとしてモデル化することで、言語モデルのようなテキストデータで事前トレーニングできるようになり、強化学習のパフォーマンスが向上します。 言語のヒント環境内でのエージェントのパフォーマンスを評価するために、研究者は HomeGrid を導入しました。タスクの指示に加えて、エージェントは言語プロンプトも受け取ります。 HomeGrid のプロンプトは、エージェントが人間から学習したりテキストから読み取ったりする知識をシミュレートするだけでなく、タスクの解決には役立つが必須ではない情報も提供します。 - 「将来の観察」:「皿はキッチンにある」など、エージェントが将来観察する可能性のあるものを説明します。 - 「修正」: 「向きを変える」など、エージェントが実行しているタスクに基づいてインタラクティブなフィードバックを提供します。 - 「ダイナミクス」: 「ペダルを踏んで堆肥箱を開ける」など、環境のダイナミクスを説明します。 エージェントは、観察とテキストの対応を区別するための明示的な指示を受けていません。しかし、Dynalang は将来の予測目標を通じて、さまざまな種類の言語を環境と関連付けることを学習することができます。 結果は、言語条件付けにおいて Dynalang が IMPALA および R2D2 よりも大幅に優れていることを示しています。 後者は、さまざまな種類の言語に苦労しただけでなく、指示に指定されている言語以外の言語を使用した場合のパフォーマンスもさらに悪くなりました。 ゲーム評価メッセンジャーのゲーム環境で、研究者たちは、テキストと視覚的観察の間で複数の推論ホップを必要とする、より長く複雑なテキストからエージェントがどのように学習できるかをテストしました。 エージェントは、各エピソードのダイナミクスを説明するテキスト記述を推論し、それを環境内のエンティティの観察と組み合わせて、どのエンティティからメッセージを取得し、どのエンティティを避けるかを決定する必要があります。 結果は、Dynalang が、特に最も困難なステージ 3 において、テキストと観察に基づく推論タスクに最適化された特殊なアーキテクチャを使用する IMPALA および R2D2、さらに EMMA ベースラインを大幅に上回ることを示しています。 従うべき指示Habitat のテスト結果では、Dynalang が現実的な視覚的観察を処理し、指示を実行できることが示されています。 つまり、エージェントは自然言語の指示に従って自宅の目的の場所まで移動する必要があります。 Dynalang では、指示に従うことを将来の報酬の予測と見なすことで、同じ予測フレームワークで均一に扱うことができます。 言語生成言語がエージェントの見るものについての予測に影響を与えるのと同様に、エージェントが観察するものは、エージェントが聞くと期待する言語(たとえば、エージェントが見るものについての真の陳述)に影響を与えます。 LangRoom のアクション スペースに言語を出力することで、Dynalang は環境に関連付けられた言語を生成し、特定の質問への回答を実行できます。 テキスト事前トレーニング言語を使用して世界モデルを構築することと、世界モデルを使用してアクションを学習することは別であるため、Dynalang はアクションや報酬のラベルなしでオフライン データを使用して事前トレーニングできます。 この機能により、Dynalang は単一のモデル アーキテクチャ内で大規模なオフライン データセットを活用できるようになります。 研究者たちは、プレーンテキストデータを使用して Dynalang を事前トレーニングし、トークンの埋め込みをゼロから学習しました。 一般的なテキスト データ (TinyStories、200 万の短編小説) で事前トレーニングした後、モデルは Messenger での下流の RL タスクのパフォーマンスを向上させ、事前トレーニング済みの T5 埋め込みのパフォーマンスを上回ることさえあります。 この作業はエージェントが言語を理解してアクションを実行できるようにすることに重点を置いていますが、プレーンテキスト言語モデルのようにテキストを生成することも可能になります。 研究者たちは、潜在空間で事前トレーニング済みの TinyStories モデルをサンプリングし、各タイムステップでの表現からトークンの観測をデコードしました。 結果は、モデルによって生成された結果が驚くほど一貫していることを示していますが、それでも SOTA 言語モデルよりも品質が低いです。 しかし、このことから、言語生成とアクションを単一のインテリジェントエージェントアーキテクチャに統合することが興味深い研究方向であることもわかります。 著者についてジェシー・リン 論文の筆頭著者であるジェシー・リン氏は、カリフォルニア大学バークレー校のバークレーAI研究所でアンカ・ドラガン氏とダン・クライン氏の指導を受ける博士課程3年生である。 彼女の研究対象は、人間と協力し、対話できる言語を介したインテリジェントエージェントの構築です。彼女は対話と言語+強化学習にも興味を持っています。現在、彼女の研究は Apple AI Fellowship によってサポートされています。 彼女はMITでコンピューターサイエンスと哲学の二重学位を取得しました。そこで彼女は、ケルシー・アレンとジョシュ・テネンバウムの指導の下、計算認知科学グループで人間にヒントを得た AI 研究に取り組むとともに、Labsix の創設メンバーとして機械学習のセキュリティ研究も行いました。 さらに、彼女は Lilt で、人間と機械の共同作業による機械翻訳/専門家による翻訳のための Copilot の研究と製品開発に携わりました。 |
>>: フーリエ演算子効率トークンミキサー: 軽量ビジュアルネットワークの新しいバックボーン
グラフ ニューラル ネットワーク (GNN) は、グラフの構造情報を推論に活用するのに優れていますが...
[51CTO.com クイック翻訳] フレームワークと方法として、アジャイル開発は現在、ソフトウェア...
誇大宣伝されているかどうかは別として、人工知能アルゴリズムの可能性は依然として有望です。しかし、今日...
テキスト段落の生成、人間の会話のシミュレーション、数学の問題の解決において驚くほど優れたパフォーマン...
生成型AI作成ロボットの登場以来、各界はロボットを使って記事や学術論文を書くようになりました。この状...
全米経済研究所が実施した最近の調査によると、ChatGPT のような AIGC を導入すると、従業員...
[[415286]]注意メカニズムは、最初はコンピューター ビジョンで使用され、その後 NLP の分...
ドイツのセキュリティ愛好家が、レンタルしたコンピュータ リソースを使用して、SHA1 ハッシュ アル...
物事が急速に進んでいるときは、立ち止まって自分がどこにいるのかを振り返ることが必要になることがよくあ...
私たちの生活のあらゆる側面がテクノロジーと絡み合っている時代において、電力業界も例外ではありません。...
2017 年現在までに最もよく使われている流行語は人工知能 (AI) と機械学習 (ML) ですが...