WindowsとOfficeは使いやすく、大型モデルのインテリジェントエージェントはコンピュータを操作するのにとてもクールです

WindowsとOfficeは使いやすく、大型モデルのインテリジェントエージェントはコンピュータを操作するのにとてもクールです

AI アシスタントの将来について語るとき、アイアンマン シリーズに登場する魅力的な AI アシスタント、ジャービスを思い浮かべずにはいられません。ジャービスはトニー・スタークの右腕であるだけでなく、高度な技術を備えた彼の通信手でもあります。今日、大型模型の出現により、人間の道具の使い方は一変し、私たちはそのようなSFのシーンに一歩近づいているのかもしれません。マルチモーダルエージェントが人間のようにキーボードとマウスを使って周囲のコンピューターを直接制御できたら、どんなに画期的な進歩になるか想像してみてください。

AIアシスタント ジャービス

最近、吉林大学人工知能学院は「ScreenAgent:視覚言語モデル駆動型コンピュータ制御エージェント」と題する新しい研究を発表しました。これは、大規模な視覚言語モデルを使用してコンピュータのGUIを直接制御し、この想像を現実にマッピングします。この研究では、ScreenAgent モデルを提案しました。このモデルは、補助的な位置決めタグを必要とせずに VLM Agent を使用してコンピューターのマウスとキーボードを直接制御することを初めて検討し、大規模なモデルでコンピューターを直接操作するという目標を達成しました。さらに、ScreenAgent は、「計画、実行、反映」の自動化プロセスを通じて、初めて GUI インターフェイスの継続的な制御を実現します。この研究は、人間とコンピュータのインタラクションの探求と革新であり、同時に、正確な位置情報を持つデータセット、コントローラー、トレーニングコードなども公開します。

  • 論文アドレス: https://arxiv.org/abs/2402.07945
  • プロジェクトアドレス: https://github.com/niuzaisheng/ScreenAgent

ScreenAgent は、ユーザーがオンライン エンターテイメント アクティビティ、ショッピング、旅行、読書などを簡単に実現できるように支援します。また、あなたのことを最もよく理解し、ユーザーが自分のパソコンを管理するのを手伝ってくれる、最も思いやりのある執事にもなります。ユーザーは何もしなくてもすぐに作業できるようになり、最も効果的なオフィス アシスタントになります。では早速、結果を見てみましょう。

インターネットサーフィンとエンターテイメントの自由を実現しましょう

ScreenAgent は、ユーザーのテキスト説明に基づいて、インターネット上で指定されたビデオを検索し、再生します。

ユーザーに高度なスキルを身につけさせるシステム運用管理者

ScreenAgent で Windows イベント ビューアーを開くには:

オフィススキルをマスターし、簡単にオフィスをマスターする

さらに、ScreenAgent ではオフィス ソフトウェアも使用できます。たとえば、ユーザーのテキストの説明に従って、開いている PPT の 2 ページ目を削除します。

行動を起こす前に慎重に計画を立て、何かを得る前にいつ止めるべきかを知っておく

タスクを完了するには、タスクを実行する前に計画アクティビティを実行する必要があります。 ScreenAgent は、開始前に観察された画像とユーザーのニーズに基づいてタスクを計画できます。たとえば、次のようになります。

ビデオの再生速度を 1.5 倍に調整します。

58.com で中古マゴタン車の価格を検索:

コマンドラインで xeyes をインストールします。

視覚的な位置決め能力の伝達、圧力をかけずにマウスで選択

ScreenAgent は、自然物体を視覚的に見つける機能も保持しており、マウスをドラッグしてオブジェクトの選択ボックスを描画できます。

方法

実際、エージェントにユーザーのグラフィカル インターフェイスと直接対話するように教えるのは簡単な作業ではありません。エージェントには、タスク計画、画像の理解、視覚的な位置決め、ツールの使用など、複数の包括的な機能が必要です。既存のモデルやインタラクション ソリューションには、いずれも一定の妥協点があります。たとえば、LLaVA-1.5 などのモデルには、大きなサイズの画像を視覚的に正確に見つける機能がありません。GPT-4V は、タスク プランニング、画像理解、OCR 機能が非常に優れていますが、正確な座標を提供することができません。既存のソリューションでは、画像に追加のデジタルラベルを手動で注釈付けし、Mobile-Agent、UFO、その他のアイテムなど、クリックする必要がある UI 要素をモデルに選択させる必要があります。また、CogAgent や Fuyu-8B などのモデルは高解像度の画像入力をサポートし、正確な視覚的位置決め機能を備えていますが、CogAgent には完全な関数呼び出し機能がなく、Fuyu-8B には言語機能がありません。

上記の問題を解決するために、本論文では、ビジュアル言語モデルエージェント (VLM エージェント) が実際のコンピュータ画面と対話するための新しい環境を構築することを提案します。この環境では、エージェントはスクリーンショットを観察し、マウスやキーボードの操作を出力することでグラフィカル ユーザー インターフェイスを操作できます。 VLM エージェントがコンピュータ画面と継続的に対話できるようにするために、この記事では「計画-実行-反映」を含む操作プロセスを構築します。計画フェーズでは、エージェントはユーザー タスクをサブタスクに分解する必要があります。実行フェーズでは、エージェントはスクリーンショットを観察し、サブタスクを実行するための特定のマウスとキーボードのアクションを提供します。コントローラーはこれらのアクションを実行し、実行結果をエージェントにフィードバックします。リフレクション フェーズでは、エージェントは実行結果を観察し、現在のステータスを決定して、実行の継続、再試行、またはプランの調整を選択します。このプロセスはタスクが完了するまで続きます。 ScreenAgent はテキスト認識モジュールやアイコン認識モジュールを使用する必要がなく、エンドツーエンドのアプローチを使用してモデルのすべての機能をトレーニングすることに注意してください。

ScreenAgent 環境は、最も基本的なマウスとキーボードの操作を含むエージェントのアクション スペースを設計するための VNC リモート デスクトップ接続プロトコルを参照します。マウス クリック操作では、エージェントが正確な画面座標位置を提供する必要があります。タスクを完了するために特定の API を呼び出す方法と比較して、この方法はより汎用性が高く、Windows や Linux デスクトップなどのさまざまなデスクトップ オペレーティング システムやアプリケーションに適用できます。

ScreenAgent データセット

ScreenAgent モデルをトレーニングするために、この記事では ScreenAgent データセットに正確な視覚的位置情報を手動で注釈付けしました。このデータセットは、Windows および Linux デスクトップ環境でのファイル操作、Web 閲覧、ゲーム、エンターテイメントなど、日常的なコンピューター タスクを幅広くカバーしています。

データセット内の各サンプルは、アクションの説明、スクリーンショット、実行された特定のアクションなど、タスクを完了するための完全なプロセスです。たとえば、Amazon の Web サイトで「最も安いチョコレートをショッピング カートに追加する」という場合、まず検索ボックスでキーワードを検索し、次にフィルターを使用して価格を並べ替え、最後に最も安い商品をショッピング カートに追加する必要があります。データセット全体には 273 個の完全なタスク レコードが含まれています。

実験結果

実験分析の部分では、著者らは、主にコマンド追従能力と細分化された動作予測の精度という 2 つのレベルを含むさまざまな角度から、ScreenAgent といくつかの既存の VLM モデルを比較しました。コマンドフォロー機能は、主にモデルがアクションシーケンスを JSON 形式で正しく出力できるかどうかと、アクションタイプの正確さをテストします。アクション属性予測の精度は、マウスクリックの位置やキーボードのキーなど、各アクションの属性値が正しく予測されているかどうかを比較します。

従うべき指示

コマンドの追跡に関して言えば、エージェントの主なタスクは、プロンプトワードに従って正しいツール関数呼び出しを出力できること、つまり正しい JSON 形式を出力できることです。この点では、ScreenAgent と GPT-4V はどちらも指示に非常によく従うことができますが、オリジナルの CogAgent は、視覚的な微調整トレーニング中に API 呼び出しの形でのデータサポートが不足しているため、JSON を出力する機能を失っています。

行動属性予測の精度

アクション属性の精度に関しても、ScreenAgent は GPT-4V に匹敵するレベルに達しています。特に、ScreenAgent はマウス クリックの精度に関して既存のモデルをはるかに上回っています。これは、視覚的な微調整により、モデルの正確な位置特定機能が効果的に強化されることを示しています。さらに、ScreenAgent は GPT-4V と比較してタスク計画に大きなギャップがあることも確認されており、これは GPT-4V の常識的な知識とタスク計画能力を浮き彫りにしています。

結論は

吉林大学人工知能学院のチームが提案した ScreenAgent は、人間と同じようにコンピューターを制御でき、他の API や OCR モデルに依存せず、さまざまなソフトウェアやオペレーティング システムで幅広く使用できます。 ScreenAgent は、「計画、実行、反映」プロセスの制御下で、ユーザーから与えられたタスクを自律的に完了できます。このようにして、ユーザーはタスク完了のすべてのステップを確認し、エージェントの動作とアイデアをよりよく理解できます。

この記事では、制御ソフトウェア、モデルトレーニングコード、およびデータセットをオープンソース化します。これを基に、環境フィードバック下での強化学習、エージェントによるオープンワールドの能動的な探索、世界モデルの構築、エージェントのスキルライブラリなど、汎用人工知能に向けたより最先端の取り組みを探求することができます。

さらに、AIエージェント駆動型パーソナルアシスタントは、身体に障害のある人のコンピューター使用を支援したり、人間による反復的なデジタル労働を軽減したり、コンピューター教育を普及させたりするなど、大きな社会的価値を持っています。将来、誰もがアイアンマンのようなスーパーヒーローになれるわけではないかもしれませんが、私たち一人ひとりに、私たちに付き添い、助け、導いてくれるインテリジェントなパートナー、専用のジャービスが与えられ、私たちの生活や仕事にさらなる利便性と可能性をもたらしてくれるかもしれません。

<<:  2024年にIT業界は成長を遂げる:AIとサイバーセキュリティが最大のホットスポット

>>:  RNN モデルが Transformer の覇権に挑戦!ミストラル7Bに匹敵する1%のコストパフォーマンス、世界最多の100以上の言語をサポート

ブログ    
ブログ    
ブログ    

推薦する

...

弁護士は直感に基づいて仕事をするのでしょうか? AIはそうは思わない

法曹界は、統計学や数学に関しては常に比較的消極的でした。伝統的に、彼らの意見は長年、あるいは数十年に...

...

...

偽造AIがまた進化しました!たった一枚の写真で、スピーチと歌のビデオが自動的に生成されます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2020年に注目すべき10のAIトレンド

来年、AI テクノロジーと市場はどのように進化するのでしょうか? 主要な AI トレンドとしては、エ...

ICML 2023 優秀論文賞発表!北京大学の卒業生が作品で賞を受賞、3人の中国人作家が作品に参加、DeepMindとAppleも選出

ICML 2023 の賞品が発表されました!今年は32件の候補論文の中から6件が優秀論文賞を受賞しま...

ガイド | NLP の問題の 90% を解決する方法を段階的に教えます

[[279869]]テキストデータはどこにでもある既存の企業でも、新しいサービスを開発している企業で...

ResNet仮説は覆されたか? Redditの人:長年誰もその原理を理解していなかった

[[429626]] 2015 年に、画期的なニューラル ネットワーク モデル ResNet がリ...

AIエージェント、起動!復旦 NLP チームが 86 ページのレビューを発表: インテリジェント社会はすぐそこ

9 月 19 日、Jim Fan は Fudan NLP チームからの LLM ベースのエージェント...

AI + リアルタイム監視技術が公共サービスを改善する10の方法

石油やガスの価格変動、運用コストの増加、サイバー/物理的な脅威の増大により、公益事業会社はセキュリテ...

フェイフェイ・リーとチュンハン・デンが米国工学アカデミーに選出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

【慎重に応募】今後10年間で消滅する可能性が最も高く、代替される可能性が最も低い22の職業

[[373618]] 5Gの商用利用、人工知能、スマートシティ、スマートホーム、自動運転車、無人スー...

エッジAIの夢と課題

この記事では、AI を「小型マシン」に実装する根拠と、AI 小型マシンの開発で直面する課題という 2...