アリババ北京交通大学インターンの論文が人気に！ MobileAgent は、人間が携帯電話を使用する様子をシミュレートできます。ネットユーザーの皆さん、ショッピングをスピードアップして、泥を食べましょう!

編集者 | ヤン・ジェン

制作：51CTO テクノロジースタック（WeChat ID：blog）

「すごいですね！AIを活用して買い物をスピードアップしたいと思います。」最近、モバイルインテリジェントエージェント「MobileAgent」が業界の注目を集めています。

驚くべき点の 1 つは、このエージェントが「携帯電話 + GPT4」の組み合わせの優れたアプリケーションデモンストレーションを提供し、新しい形式の携帯電話のロックを解除していることです。

Siri やインテリジェントなカスタマーサービスとは異なり、MobileAgent は計画と推論が非常に優れており、次のようなさまざまな複雑なタスクを自動的に完了できます。

ユーザーが Alibaba で帽子を見つけ、条件に基づいてショッピングカートに追加できるように支援します。

Amazon MusicでJay Chouを検索するか、「Proxy」に関する音楽を再生してください。

Chrome で今日のレイカーズの試合結果やテイラー・スウィフトに関する情報を検索します。

Gmail で空のメッセージまたは特定のコンテンツを含むメッセージを送信します。

TikTok ではペットの猫の動画に「いいね！」したりコメントしたりできるほか、複数のアプリを組み合わせて複雑なタスクを完了することもできます。

今日のレイカーズの試合結果やテイラー・スウィフトに関する情報をChromeで検索

TikTok でペットの猫に関する動画をスワイプし、「いいね」をタップして動画を視聴します。

MobileAgentは、アリババと北京交通大学（アリババでインターンシップ中の学生）が開発した自律型マルチモーダルAIエージェントであると報じられている。これは、携帯電話の人間による操作をシミュレートすることができる。システムコードを必要とせず、画像を分析することで携帯電話を完全に理解して操作する純粋な視覚ソリューションである。

写真

最も重要な 4 つの機能は、XML やシステムメタデータに依存しない純粋なビジュアルソリューション、無制限の操作範囲とマルチアプリケーション操作、操作位置の決定に役立つさまざまな視覚認識ツール、調査やトレーニングを必要としないプラグアンドプレイです。

写真

コードは現在 GitHub で公開されています。興味のある方はぜひ試してみてください。

https://github.com/X-PLUG/モバイルエージェント

1. マルチモーダル大規模モデルの威力が携帯電話で発揮される

写真

ご存知のとおり、GPT4 の末端のローカル機能は不十分です。最も先進的な GPT-4V でさえ、効果的な媒体として機能するには視覚認識機能が不十分です。効果的な操作を実行できますが、画面上でこれらの操作を正確に特定することは困難です。この制限により、高度なマルチモーダル大規模モデルを通じてのみモバイルデバイス上で操作する機能が妨げられます。

この問題を解決するために、以前、ユーザーインターフェイスレイアウトファイルを使用して GPT-4V のローカライズを支援する方法を考案した人がいましたが、その結果は満足のいくものではありませんでした。

アプリケーション XML ファイルやモバイルシステムのメタデータに依存する従来のソリューションとは異なり、Mobile-Agent はビジョン中心であり、さまざまなモバイルオペレーティング環境への適応性が高く、特定のシステムへのカスタマイズが不要になります。

MobileAgent は視覚認識ツールを使用して、アプリケーションのフロントエンドインターフェイスの視覚要素とテキスト要素を正確に識別して特定し、複雑な操作タスクの自律的な計画と分解を実現し、ステップバイステップの操作を通じてモバイルアプリケーションをナビゲートします。

2. 大規模マルチモーダルモデルのモバイルエージェントとしての能力を評価する方法

エージェントの精度とパフォーマンスを評価するために、アリババチームは、電子商取引ショッピング、音楽、ブラウザ、地図、アプリストア、メモ、システム設定、ビデオ、ショートビデオ、クロスアプリなど、さまざまなシナリオに適したベンチマークテストセットも構築しました。さまざまなタスクにおけるモバイルエージェントのパフォーマンスを評価するために、シナリオごとに難易度の異なる 3 つの指示が設計されています。

写真

要約すると、MobileAgent には 3 つの使用シナリオがあります。

（１）モバイルデバイスの操作の自動化：モバイルエージェントを使用すると、モバイルアプリケーション内のタスクを自動化し、効率を向上させることができます。

（２）モバイルデバイスのパフォーマンス評価：モバイルエージェントを使用してモバイルデバイスの操作を評価し、パフォーマンスを向上させます。

（３）モバイルアプリケーションの適応性の向上：モバイルエージェントは、モバイルアプリケーションがさまざまな環境でより高い適応性を実現するのに役立ちます。

このエージェントの特徴も注目に値します:

マルチモーダル大規模言語モデル技術を活用し、視覚認識ツールを使用してアプリケーションのフロントエンドインターフェイスの視覚要素とテキスト要素を正確に識別して特定し、複雑な操作タスクを自律的に計画および分解し、ステップバイステップの操作を通じてモバイルアプリケーションをナビゲートし、適応性が高く、特定のシステムをカスタマイズする必要がなくなり、モバイルデバイスの操作を評価するためのベンチマークである Mobile-Eval を導入します。

3. 動作原理の概要

MobileAgent の動作原理には、視覚認識ツール、自律的なタスク計画と実行、自己反映、プロンプト形式という 3 つの側面が含まれます。 MobileAgent は、視覚認識モジュール、テキストとアイコンの配置、自律計画、自己反映方式を使用してモバイルアプリケーションを操作します。

写真

「観察、思考、行動」は、MobileAgent が採用しているプロンプト形式であり、エージェントは 3 つのコンポーネントを出力する必要があります。

写真

<<: GPT-4 に匹敵するオープンソースモデルがリークされました。ミストラルのボスが確認: 正式版はさらに強力になる

>>: 最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置

アリババ北京交通大学インターンの論文が人気に！ MobileAgent は、人間が携帯電話を使用する様子をシミュレートできます。ネットユーザーの皆さん、ショッピングをスピードアップして、泥を食べましょう!

1. マルチモーダル大規模モデルの威力が携帯電話で発揮される

2. 大規模マルチモーダルモデルのモバイルエージェントとしての能力を評価する方法

3. 動作原理の概要

調査：CIOはAIの実験や投資に依然として慎重

将来世界に革命を起こす可能性のあるトップ 10 のテクノロジーをご存知ですか?

AIOps の 7 つの主要機能

データマイニングにおける10の古典的なアルゴリズムの予備的調査

スタンフォード大学が長いテキストをよりスムーズに生成する時間制御方式を導入、その論文がICLR 2022に選出される

7つの文章でAIが私のために小さなゲーム、ゼルダのミニマリストバージョンを作成し、私はそれをプレイするのをやめることができませんでした

AutoRLについてまだよく知らないという人は、オックスフォード大学、Google、その他の機関の12人以上の学者がレビューを書いています。

世界の通信業界の専門家が2024年を予測

テクノロジー｜軽量顔検出アルゴリズムの徹底レビュー

フェデレーテッドラーニング - プライバシーの障壁を突破し、データの価値を引き出す

推薦する

顔認識だけでなく、「心を読む」こともできます。このような AI は好きですか?

Facebook がアルゴリズムコードライブラリ PySlowFast をオープンソース化、最先端のビデオ理解モデルを簡単に再現

ChatGPT は来週 6 つの主要なアップデートを予定しています。

AI、自動化、仕事の未来、そして注目と解決が必要な問題

マイクロソフトが積極的に顔認識データベースを削除した秘密は何でしょうか?

清華インテリジェント・ユニバースが大盛況。囚人のジレンマなどの実験のAIシミュレーションには、いくつかの簡単な設定行のみが必要です。