CMU PhD により、インテリジェント エージェントが現実世界で競争できるようになります。 GPT-4が勝利したが成功率はわずか10%

CMU PhD により、インテリジェント エージェントが現実世界で競争できるようになります。 GPT-4が勝利したが成功率はわずか10%

私たちは長い間、人工知能の進歩によって推進される自律的なインテリジェントエージェントを作成するというビジョンを抱いてきました。

これらのエージェントは、環境とインテリジェントに対話し、人間が設定した目標を達成することが期待されています。

既存の強化学習 (RL) フレームワークは、シミュレートされたゲームや閉じたドメインでは大きな成功を収めていますが、現実世界の複雑な物理環境には対応できません。

今日の自然言語処理 (NLP) テクノロジーは、デジタル世界における人間と大規模モデル間のインテリジェントな相互作用のための独自のスケーラブルな環境と学習の利点を提供します。

たとえば、WebShop は数百万の製品を含むショッピング Web サイト環境であり、エージェントは人間のようにショッピングを行うために Web ページを読み、クエリを入力し、ボタンをクリックする必要があります。

このようなデジタルタスクは、視覚的理解、読解力、意思決定など、知能の一般的な側面に挑戦し、他のプログラムで使用されるより多くの機能への拡張を可能にします。

このような「デジタル世界のインテリジェントエージェント」は、人工知能の実用化に有望な展望をもたらします。

7月26日、主に中国人で構成されるチームが、ネットワーク環境でタスクを実行するインテリジェントエージェントの実用的な有効性をテストするために、X(旧Twitter)上にWeb環境「WebArena」を立ち上げました。

WebArenaとは何ですか?

WebArena はスタンドアロンの自己ホスト型 Web 環境です。

開発者は、機能とデータの面で現実世界のコンテンツを模倣し、電子商取引、ソーシャル フォーラム、共同ソフトウェア開発、コンテンツ管理という 4 つの現実世界のカテゴリから独立した Web サイトを作成しました。

WebArena はツールや知識リソースを独立した Web サイトとして埋め込み、インテリジェント エージェントに人間の問題解決をシミュレートする機能を提供します。

ユーザーは、自然言語の指示を使用してインテリジェント エージェントをベンチマークし、Web との具体的なやり取りを実装できます。

開発者は、WebArena 環境に基づいて、タスク完了の機能的正確性の評価に重点を置いた一連のベンチマーク タスクをリリースしました。

ベンチマークのタスクは多様かつ長期にわたるもので、人間がインターネット上で頻繁に実行するタスクをシミュレートするように設計されています。

OneStopMarketのニュースレターを購読する

当店がこれまでに受け取った「最高」という言葉を含むレビューの数を教えてください

メイン州最大の都市に最も近い国立公園はどれですか?

注文307をキャンセル

カーネギーホールとUPMCシェイディサイド間の徒歩圏内

ピッツバーグ空港から車で1時間でピッツバーグのデュケイン大学に行けるかどうか確認してください

Gitlabのエージェント Gitlabのエージェント

「awesome_llm_reading という名前の新しい空のリポジトリを設定します」

ショッピングウェブサイトのエージェント

「最新の注文の状況と到着予定日を教えてください」

一般的に、ルートナビゲーション タスクを完了するには、インテリジェント エージェントが複雑な長期計画と推論を行う必要があります。タスクの目標を達成するには、インテリジェント エージェントは次のことを行う必要があります。

Wikipedia でピッツバーグの美術館を検索し、収集した情報に基づいて絞り込み、地図上で各美術館の位置を確認します。

ルート計画が完了したら、インテリジェント エージェントは、関連するコード リポジトリの README ファイルに結果を更新し、計画された博物館ツアー ルートをテキスト形式で追加する必要があります。

リアルで再現可能なウェブ環境

WebArena の目標は、現実的で再現可能な Web 環境を作成することです。

主な方法は 2 つあります。

まず、環境を自己完結型にして、再現性のためにライブ サイトに依存しないようにします。

次に、現実世界の多くの Web サイトのオープンソース ライブラリを構築し、それらの Web サイトからデータを環境にインポートして、リアリズムを実現しました。

このアプローチにより、WebArena は技術的な課題を回避することもできました。たとえば、ロボットが検証コードを渡す必要があること、コンテンツや構成が予期せず変更されることなどにより、一定期間にわたって異なるインテリジェント エージェントを公平に比較​​することが妨げられます。

評価する

非常にリアルな WebArena インタラクティブ環境は、ベンチマーク テストを実装するための条件を提供します。

他の同様のシミュレートされた Web 環境と比較して、WebArena のベンチマークは、人々が日常生活で遭遇する可能性のあるさまざまなタスクをカバーしています。

同時に、WebArena はタスク実行の機能的正確性をチェックするための評価メトリックも設計します。

したがって、WebArena のベンチマークは実際の環境に近くなり、インテリジェント エージェントのタスク実行結果も現実に近くなります。

WebArena で実行されているインテリジェント エージェントの精度を評価する方法は 2 つあります。

1 つ目は、情報検索タスクを実行する際の正確さを測定することです。予測された回答を注釈付きの参照回答と比較し、3 つの方法で実装できます。

2 番目のアプローチは、実行中に中間状態をプログラムでチェックし、インテントによって指定された期待されるプロパティがあるかどうかを確認することです。

全体として、WebArena は完全に機能し、非常に現実的なテスト環境と評価システムを提供します。エージェントが複雑なタスクを実行する全体的な能力を測定できます。

GPT-4エージェントが優勝

研究者らは、英語で書かれた目標とその目標を達成したネットワーク相互作用のテスト例を 812 個作成しました。

各タスクには検証機能が付加されており、タスクが実際に期待どおりに完了したかどうかをプログラムでチェックします。

これらのタスク全体で、最高のパフォーマンスを示した GPT-4 エージェントは、エンドツーエンドの限定的なタスク成功率 10.59% を達成しました。

10% 未満なので、明らかに改善の余地は十分にあります。

WebArena の実験もそのような未来を予感させます。

環境に統合される API が増えるにつれて、非常に多様でオープンなデジタル ツールとタスクのエコシステムが出現します。より汎用的で有能な自律型インテリジェントエージェントを開発します。

これにより、汎用人工知能 (AGI) への道に新たな方向性がもたらされます。

<<:  LK99最新ニュース:完全停止の難しさ、韓国の著者は「超伝導が唯一の可能な説明」と述べ、インドチームは3回の失敗で断念

>>:  VRの悪夢にさよならしましょう! Meta Reality Labs は仮想世界の問題点を解決し、新しい VR の世界を再構築します

ブログ    
ブログ    

推薦する

Nature Sub-Journal | NUS と ByteDance が初めて AI メタ学習を脳画像に導入

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

人工知能は人類の終焉をもたらすのでしょうか? AIに対する5つの実存的脅威

私たちは現在、この地球上で最も知的な種であり、他のすべての生命は生き続けるために私たちの善意に依存し...

ハイパースケールクラウドコンピューティングプロバイダーはAIクラウドサービスへの投資に注力している

今日、AI クラウド サービスは、データ サイエンティストや開発者を惹きつけ、自社のプラットフォーム...

AIがパートナー探しをお手伝い:Tinder + AI = 仲人?

[[346697]] 2012年、インキュベーター企業のHatch Labsは、IACとXtrem...

MySQL インデックスの背後にあるデータ構造とアルゴリズムの基礎

インデックスの性質MySQL のインデックスの公式定義は次のとおりです: インデックスは、MySQL...

企業はデータセンターで人工知能を広く利用する準備ができているでしょうか?

今日、ますます多くのサーバーベンダーが、人工知能を活用したサーバー自動化テクノロジーの開発に取り組ん...

HTTPS の暗号化アルゴリズムに関連する概念

[[176353]]暗号化はコンピュータサイエンスで広く使用されており、HTTPS は暗号化に基づい...

人工知能のビジネス価値を最大限に引き出すための10の重要な役割

あらゆる業界でますます多くの企業が、ビジネス プロセスを変革するために AI を導入しています。しか...

インテリジェントな変革の時代を迎える: AIでビジネスの未来をリードする

インテリジェント トランスフォーメーションの本質: インテリジェント トランスフォーメーションは、テ...

...

食品サービス機器業界の主な動向

[[442813]]画像ソース: https://pixabay.com/images/id-673...

ドローンを使って「国勢調査」を実施?人だけでなく動物も!

データによれば、我が国の人口は過去 10 年間にわたり緩やかな増加傾向を維持し続けており、我が国は依...

...