編集者 | ヤン・ジェン 制作:51CTO テクノロジースタック(WeChat ID:blog) 「すごいですね!AIを活用して買い物をスピードアップしたいと思います。」最近、モバイル インテリジェント エージェント「MobileAgent」が業界の注目を集めています。 驚くべき点の 1 つは、このエージェントが「携帯電話 + GPT4」の組み合わせの優れたアプリケーション デモンストレーションを提供し、新しい形式の携帯電話のロックを解除していることです。 Siri やインテリジェントなカスタマー サービスとは異なり、MobileAgent は計画と推論が非常に優れており、次のようなさまざまな複雑なタスクを自動的に完了できます。 ユーザーが Alibaba で帽子を見つけ、条件に基づいてショッピング カートに追加できるように支援します。 Amazon MusicでJay Chouを検索するか、「Proxy」に関する音楽を再生してください。 Chrome で今日のレイカーズの試合結果やテイラー・スウィフトに関する情報を検索します。 Gmail で空のメッセージまたは特定のコンテンツを含むメッセージを送信します。 TikTok ではペットの猫の動画に「いいね!」したりコメントしたりできるほか、複数のアプリを組み合わせて複雑なタスクを完了することもできます。 今日のレイカーズの試合結果やテイラー・スウィフトに関する情報をChromeで検索 TikTok でペットの猫に関する動画をスワイプし、「いいね」をタップして動画を視聴します。 MobileAgentは、アリババと北京交通大学(アリババでインターンシップ中の学生)が開発した自律型マルチモーダルAIエージェントであると報じられている。これは、携帯電話の人間による操作をシミュレートすることができる。システムコードを必要とせず、画像を分析することで携帯電話を完全に理解して操作する純粋な視覚ソリューションである。 写真 最も重要な 4 つの機能は、XML やシステム メタデータに依存しない純粋なビジュアル ソリューション、無制限の操作範囲とマルチアプリケーション操作、操作位置の決定に役立つさまざまな視覚認識ツール、調査やトレーニングを必要としないプラグ アンド プレイです。 写真 コードは現在 GitHub で公開されています。興味のある方はぜひ試してみてください。 https://github.com/X-PLUG/モバイルエージェント 1. マルチモーダル大規模モデルの威力が携帯電話で発揮される写真 ご存知のとおり、GPT4 の末端のローカル機能は不十分です。最も先進的な GPT-4V でさえ、効果的な媒体として機能するには視覚認識機能が不十分です。効果的な操作を実行できますが、画面上でこれらの操作を正確に特定することは困難です。この制限により、高度なマルチモーダル大規模モデルを通じてのみモバイル デバイス上で操作する機能が妨げられます。 この問題を解決するために、以前、ユーザー インターフェイス レイアウト ファイルを使用して GPT-4V のローカライズを支援する方法を考案した人がいましたが、その結果は満足のいくものではありませんでした。 アプリケーション XML ファイルやモバイル システムのメタデータに依存する従来のソリューションとは異なり、Mobile-Agent はビジョン中心であり、さまざまなモバイル オペレーティング環境への適応性が高く、特定のシステムへのカスタマイズが不要になります。 MobileAgent は視覚認識ツールを使用して、アプリケーションのフロントエンド インターフェイスの視覚要素とテキスト要素を正確に識別して特定し、複雑な操作タスクの自律的な計画と分解を実現し、ステップバイステップの操作を通じてモバイル アプリケーションをナビゲートします。 2. 大規模マルチモーダルモデルのモバイルエージェントとしての能力を評価する方法エージェントの精度とパフォーマンスを評価するために、アリババチームは、電子商取引ショッピング、音楽、ブラウザ、地図、アプリストア、メモ、システム設定、ビデオ、ショートビデオ、クロスアプリなど、さまざまなシナリオに適したベンチマークテストセットも構築しました。さまざまなタスクにおけるモバイル エージェントのパフォーマンスを評価するために、シナリオごとに難易度の異なる 3 つの指示が設計されています。 写真 要約すると、MobileAgent には 3 つの使用シナリオがあります。 (1)モバイルデバイスの操作の自動化:モバイルエージェントを使用すると、モバイルアプリケーション内のタスクを自動化し、効率を向上させることができます。 (2)モバイルデバイスのパフォーマンス評価:モバイルエージェントを使用してモバイルデバイスの操作を評価し、パフォーマンスを向上させます。 (3)モバイルアプリケーションの適応性の向上:モバイルエージェントは、モバイルアプリケーションがさまざまな環境でより高い適応性を実現するのに役立ちます。 このエージェントの特徴も注目に値します: マルチモーダル大規模言語モデル技術を活用し、視覚認識ツールを使用してアプリケーションのフロントエンド インターフェイスの視覚要素とテキスト要素を正確に識別して特定し、複雑な操作タスクを自律的に計画および分解し、ステップバイステップの操作を通じてモバイル アプリケーションをナビゲートし、適応性が高く、特定のシステムをカスタマイズする必要がなくなり、モバイル デバイスの操作を評価するためのベンチマークである Mobile-Eval を導入します。 3. 動作原理の概要MobileAgent の動作原理には、視覚認識ツール、自律的なタスク計画と実行、自己反映、プロンプト形式という 3 つの側面が含まれます。 MobileAgent は、視覚認識モジュール、テキストとアイコンの配置、自律計画、自己反映方式を使用してモバイル アプリケーションを操作します。 写真 「観察、思考、行動」は、MobileAgent が採用しているプロンプト形式であり、エージェントは 3 つのコンポーネントを出力する必要があります。
|
<<: GPT-4 に匹敵するオープンソース モデルがリークされました。ミストラルのボスが確認: 正式版はさらに強力になる
>>: 最も強力なオープンソースのマルチモーダル生成モデル MM-Interleaved: 最初の機能同期装置
[[206602]]デフォルトの損失関数は当然使用される始めたばかりのときは、損失関数として平均二乗...
3月1日木曜日の米国時間のニュースで、マイクロソフトは企業顧客の財務部門向けの人工知能ツールを披露し...
[[327632]] 【51CTO.com クイック翻訳】この質問に対する単純で明確な答えはありま...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
メタが再び爆発する!つい最近、Meta は Transformer ベースのマルチモーダル モデルで...
サプライチェーンに影響を及ぼす人工知能 (AI) について知っておくべき 8 つの方法をご紹介します...
最近、アメリカの一流弁護士たちが人工知能と競争したが、弁護士たちは負けたと報じられている。法律AIプ...
出会いは幻想的で、窓の外はまた夜明けだった。弦楽器の音とかすかな笑顔をいつも思い出すが、世の中に花が...
8年生の理科のテストに60点で合格すれば、8万ドル(57万人民元相当)の賞金を獲得できます。 [[...
コンピュータシミュレーション技術の継続的な発展のおかげで、ますますリアルな現実世界をコンピュータで再...
AIがさまざまな科学分野と融合するにつれ、可能性と課題に満ちた技術革命が起こっています。 AI は...
[[389635]]私の国では高齢化が進み、高齢者介護は長い間、社会全体で広く関心を集めるテーマとな...
基礎科目として、数学はデータサイエンスと機械学習の両方において欠かせない役割を果たします。数学的な基...