GPT-4Vを試した後、マイクロソフトは166ページに及ぶ評価レポートを作成した。業界関係者:上級ユーザー必読

GPT-4Vを試した後、マイクロソフトは166ページに及ぶ評価レポートを作成した。業界関係者:上級ユーザー必読

1週間前、ChatGPTはメジャーアップデートを受けました。GPT-4とGPT-3.5の両モデルは、画像に基づいて分析と会話を実行できます。それに応じて、GPT-4V モデルのマルチモーダル バージョンの関連ドキュメントも公開されました。当時、OpenAIが公開したドキュメントはわずか18ページであり、多くの内容が不明でした。GPT-4Vの応用をより深く理解したい人にとっては、まだかなり難しいです。

わずか数日後、OpenAI が公開した 18 ページの文書に誰もがまだ苦労していたとき、Microsoft は GPT-4V の機能と使用方法を定性的に調査した 166 ページのレポートを公開しました。

レポートアドレス: https://arxiv.org/pdf/2309.17421.pdf

MedARC (医療人工知能研究センター) の共同創設者兼 CEO である Tanishq Mathew Abraham 氏は、「このレポートは、GPT-4V の上級ユーザーにとって必読の資料となるでしょう」と述べています。


このレポートは11章に分かれており、最新モデルGPT-4V(ision)の分析に重点を置き、LMM(Large Multimodal Model)に対する一般の理解を深めています。この記事では、GPT-4V が実行できるタスクの紹介に多くのスペースを割いています。これには、テスト サンプルを使用して GPT-4V の品質と汎用性を調べること、この段階で GPT-4V がサポートできる入力モードと動作モード、およびモデルを促すための効果的な方法が含まれます。

GPT-4V を調査する過程で、この研究ではさまざまな分野とタスクをカバーする一連の定性的なサンプルも慎重に整理しました。これらのサンプルを観察すると、GPT-4V は任意にインターリーブされたマルチモーダル入力を処理する前例のない能力を備えており、その機能の汎用性により GPT-4V は強力なマルチモーダル汎用システムになっていることがわかります。

さらに、GPT-4V の画像を理解する独自の能力により、視覚的な参照プロンプトなどの新しい人間とコンピューターの対話方法を生み出すことができます。このレポートは、GPT-4V ベースのシステムの新たなアプリケーション シナリオと将来の研究方向についての詳細な議論で締めくくられています。この初期の調査が、次世代のマルチモーダルタスクの定式化に関する将来の研究に刺激を与え、LMM が現実世界の問題を解決するための新しい方法を開発および強化し、マルチモーダルの基礎モデルをより深く理解することを願っています。

以下、各章の具体的な内容を一つずつ紹介していきます。

論文概要

論文の第 1 章では、研究全体の基本的な状況を紹介しています。著者らは、GPT-V4 に関する議論は主に以下の質問によって導かれたと述べています。

1. GPT-4V はどのような入力と動作モードをサポートしていますか?マルチモーダル モデルの汎用性を確保するには、必然的に、システムが異なる入力モダリティのあらゆる組み合わせを処理できることが必要になります。 GPT-4V は、入力画像、サブ画像、テキスト、シーン テキスト、ビジュアル ポインターの任意の組み合わせを理解して処理する前例のない能力を示します。また、GPT-4V は、命令追跡、思考連鎖、コンテキストに基づく少数ショット学習など、LLM で観察されるテスト時の手法を適切にサポートできることも実証しています。

2. さまざまなドメインやタスクにおける GPT-4V の品質と汎用性はどのようなものですか? GPT-4V の機能を理解するために、著者らは、オープンワールドの視覚理解、視覚的説明、マルチモーダル知識、常識、シーンテキスト理解、ドキュメント推論、エンコーディング、時間的推論、抽象的推論、感情理解など、幅広いドメインとタスクをカバーするクエリをサンプリングしました。 GPT-4V は、多くの実験領域で人間レベルの優れた能力を発揮します。

3. GPT-4V を効果的に使用し、促す方法は何ですか? GPT-4V は、入力画像に描画された視覚的なポインターやシーンテキストなどのピクセル空間編集を適切に理解できます。この機能に着想を得て、入力画像を直接編集して興味のあるタスクを示すことができる「視覚参照キュー」について説明します。視覚的な参照キューは、他の画像やテキスト キューとシームレスに連携し、指導や例のデモンストレーションのための微妙なインターフェイスを提供します。

4. 今後の開発の方向性は? GPT-4V のさまざまなドメインやタスクにわたる強力な機能を考えると、マルチモーダル学習、さらには人工知能の今後はどうなるのかと自問せずにはいられません。著者は、思考と探求を、注意が必要な新たなアプリケーション シナリオと、GPT-4V システムに基づく将来の研究方向という 2 つの側面に分けます。彼らは、将来の研究に刺激を与えるために予備的な調査結果を発表します。

GPT-4V入力モード

論文の第 2 章では、GPT-4V でサポートされている入力についてまとめています。入力は、プレーン テキスト、単一の画像とテキストのペア、インターリーブされた画像とテキストの入力の 3 つのケースに分かれています (図 1 を参照)。

GPT-4Vの動作モードと迅速な技術

論文の第 3 章では、GPT-4V の動作モードとプロンプト技術について次のようにまとめています。

1. 指示に従ってください:

2. 視覚的なガイダンスと視覚的な参照プロンプト:


3. ビジュアル + テキストプロンプト:

4. コンテキストに応じた少量学習:

視覚言語能力

論文の第 4 章では、GPT-4V を使用して視覚世界を理解し、解釈する方法について説明します。

まず、セクション 4.1 では、さまざまな有名人を認識し、その職業、行動、背景、出来事、その他の情報を詳細に記述するなど、さまざまなドメインの画像を認識する GPT-4V の能力について説明します。

GPT-4V は、有名人を識別するだけでなく、テスト画像内のランドマークを正確に識別し、ランドマークの特徴を捉えた鮮明で詳細な説明を生成することができます。

GPT-4V はさまざまな料理を認識し、料理の特定の材料、付け合わせ、調理方法を提案することもできます。

さらに、GPT-4V は一般的な病気も特定できます。たとえば、肺の CT スキャンに基づいて潜在的な問題を指摘したり、歯と顎の特定の X 線写真に基づいて下顎の左下と右下に生えている親知らずを抜く必要があるかもしれないと説明したりできます。GPT-4V はロゴを正しく識別し、そのデザイン、色、形、シンボルを含む詳細な説明を提供できます。プロンプトの問題が写真と一致しない場合、GPT-4V は反事実的推論も実行できます。

セクション 4.2 では、オブジェクトの位置特定、カウント、高密度キャプション生成のための GPT-4V について説明します。

下の図は、フリスビーと人物の空間関係を識別するなど、GPT-4V が画像内の人物と物体の空間関係を理解できることを示しています。

GPT-4V は、画像内の指定されたオブジェクトの数を判別できます。下の図は、GPT-4V がリンゴ、オレンジ、人など、画像内に存在するオブジェクトの数を正常に計算していることを示しています。

GPT-4V は、画像内の個人を正確に特定して識別し、各個人の簡潔な説明を提供します。

セクション 4.3 では、GPT-4V がマルチモーダル理解を実行し、常識を習得する能力について説明します。次の図は、GPT-4V がジョークやミームを説明できることを示しています。

GPT-4V は次のような科学的な質問に答えることができます。

GPT-4V はマルチモーダル常識推論も実行できます。

セクション 4.4 では、シーンのテキスト、表、グラフ、ドキュメントに対する GPT-4V の推論機能について説明します。

GPT-4V は数学的推論を実行できます。

フローチャートを理解する:

テーブルの詳細を理解する:

GPT-4V は、複数ページの技術レポートを読み取り、各セクションの内容を理解し、技術レポートを要約することもできます。

セクション4.5では、GPT-4Vの多言語およびマルチモーダルコンテキストの理解について説明します。

GPT-4V はさまざまな言語で画像の説明を生成できます。

GPT-4V による多言語テキスト認識、翻訳、説明の結果:

セクション4.6では、GPT-4Vのエンコード機能について説明します。

手書きの数式に基づいて LaTeX コードを生成する機能:

GPT-4V は、画像内の表を再構築するための Markdown/LaTex コードを生成する機能を備えています。

GPT-4V は入力グラフを複製するコードを記述できます。

人間とのインタラクション: 視覚的な参照手がかり

特定の空間位置を指すことは、視覚ベースの会話の実施など、マルチモーダル システムを使用した人間とコンピュータの対話における基本的な機能です。セクション 5.1 では、GPT-4V が画像上に直接描画された視覚的なポインターをうまく理解できることを示しています。この観察に基づいて、研究者は「視覚的参照プロンプト」と呼ばれる新しいモデルインタラクション方法を提案しました。図 50 に示すように、中心となるアイデアは、画像のピクセル空間を直接編集し、人間のための参照インジケーターとして視覚的なポインターまたはシーン テキストを描画することです。著者は、このアプローチの用途と利点をセクション 5.2 で詳しく説明しています。

最後に、セクション 5.3 では、GPT-4V が人間との対話のために視覚的なポインター出力を生成できるようにする方法について説明します。これらの視覚的な手がかりは、人間と機械の両方にとって直感的に生成および理解でき、人間とコンピューターの相互作用に適したチャネルです。

時間とビデオの理解

第 6 章では、著者らは GPT4V の時間的およびビデオ理解機能について説明します。 GPT4V は主に画像を入力として受け取りますが、時系列やビデオ コンテンツを理解する能力を評価することは、全体的な評価において依然として重要な側面です。これは、現実世界の出来事は時間の経過とともに展開し、AI システムがこれらの動的なプロセスを理解する能力が現実世界のアプリケーションにおいて非常に重要になるためです。時系列予測、時系列ソート、時系列ローカリゼーション、時系列推論、基本的な時系列理解などの機能は、一連の静止画像内のイベントの順序を理解し、将来のイベント発生を予測し、時間の経過とともに変化するアクティビティを分析するモデルの能力を測定するのに役立ちます。

GPT-4V は画像中心ですが、人間の理解と同様の方法でビデオや時系列を理解することができます。 GPT-4V のような複雑な AI モデルの汎用性と適用性を向上させるには、この種のテストが開発と改善に不可欠です。

この章の実験では、研究者は複数の選択されたビデオ フレームを入力として使用し、モデルが時系列とビデオ コンテンツを理解する能力をテストしました。

複数の画像シーケンス

ビデオの理解

時間的理解に基づく視覚的参照手がかり

視覚的推論とIQテスト

抽象的な視覚刺激や記号を理解し推論することは、人間の知能の基本的な能力です。論文の第 7 章では、GPT-4V が視覚信号から意味を抽象化し、さまざまな種類の人間の IQ テストを実行できるかどうかをテストします。

抽象的な視覚刺激

部品とオブジェクトの検出と関連付け

ウェクスラー成人知能検査

レイヴンの数学テスト

感情指数テスト

GPT-4V は人間と対話する際に、人間の感情を理解し共有するために共感力と感情的知性 (EQ) を備えている必要があります。人間の感情知能テストの定義に着想を得て、著者らは、GPT-4V が顔の表情から人間の感情を認識して解釈する能力、さまざまな視覚コンテンツがどのように感情を呼び起こすかを理解する能力、望ましい感情や感情に基づいて適切なテキスト出力を生成する能力を研究しました。

表情から感情を読み取る

視覚コンテンツがどのように感情を呼び起こすかを理解する

感情条件出力

新興アプリケーションのハイライト

この章では、GPT-4V の優れた機能によって実現できる、価値の高い無数のアプリケーション シナリオと新しいユース ケースについて説明します。確かに、これらのユースケースのいくつかは、既存の視覚および言語 (VL) モデルを微調整するための慎重にキュレートされたトレーニング データを使用して実現できますが、著者は、GPT-4V の真の力は、すぐに簡単に使用できることにあると強調したいと考えています。さらに、GPT-4V を外部ツールやプラグインとシームレスに統合して、その可能性をさらに広げ、より革新的で共同的なアプリケーションを実現する方法も紹介しました。

違いを見つける

業界


自動車保険

写真のキャプションを書く

画像の理解と生成

具現化されたエージェント

グラフィカル ユーザー インターフェイス (GUI) の操作

LLMベースのエージェント

論文の第 10 章では、GPT-4V の将来の研究方向について議論し、LLM の興味深い使用法をマルチモーダル シナリオにどのように拡張できるかに焦点を当てています。

ReAct に基づく GPT-4V マルチモーダル チェーン拡張:

テキストから画像へのモデル SDXL によって生成されたテキスト プロンプトを自己反映を使用して改善する例:

自己一貫性:

検索拡張 LMM、図 74 は、食料品店のチェックアウトを支援する検索拡張 LMM の例を示しています。

GPT-4V の応用シナリオの詳細については、元の論文を参照してください。

<<:  ICCV'23論文表彰式は「神々の戦い」! Meta Split EverythingとControlNetが両方とも選出され、審査員を驚かせた記事がもう一つありました

>>:  ChatGPT マルチモーダル禁止が解除され、ネットユーザーは楽しんでいます!写真を撮ってコードを生成したり、古文書を一目で認識したり、6つ以上のチャートを要約したりできる

ブログ    
ブログ    

推薦する

...

3分レビュー:8月の自動運転業界の完全な概要

[[426135]]チップ不足と疫病の影響により、今年初めから自動運転産業の発展は減速を余儀なくされ...

人工知能技術はビッグデータに基づいていますか?

Googleの人工知能AlphaGOが囲碁界の無敗の将軍になって以来、AI(Artificial ...

人工知能はコロナウイルスの流行との戦いにどのように役立つのでしょうか?

新型コロナウイルス感染者数がほぼ指数関数的に増加し、世界は機能停止状態に陥っている。世界保健機関によ...

...

...

網膜症治療のAIが成熟する中、なぜ医療業界は「無反応」なのか?

網膜は人体の中で唯一、血管や神経細胞の変化を非侵襲的に直接観察できる組織であり、さまざまな慢性疾患の...

権威ある業界レポートが発表されました。我が国のロボット開発の特徴と傾向は何ですか?

ロボットは「製造業の至宝」とみなされており、ロボット産業の発展は国家のイノベーションと産業競争力の向...

Appleは、生成AIをiPhone上でローカルに実行できるようにするために、より多くの人材を採用している。

8月6日、今年初めから、生成型人工知能への熱狂がテクノロジー業界全体を席巻しているというニュースが...

AIの技術的負債の解消は急務

この流行は世界市場に衝撃をもたらしたが、人工知能(AI)企業への資本投資は増加し続けている。 CB ...

...

機械学習と人工知能: 定義と重要性

[[258322]]機械学習は計算知能とも呼ばれ、近年いくつかの技術的障壁を突破し、ロボット工学、機...

スマートフォンアプリケーションにおける人工知能の役割

人工知能がスマートフォンアプリとユーザーエクスペリエンスをどのように変えているのか。進化し続けるテク...

新たな突破口!商用ドローン配送がさらに一歩前進

ドローンはすでに、医療製品の配送、インフラの検査、監視、メンテナンス、人間の労働力へのリスクの軽減、...

2021年以降の人工知能トレンドに関する5つの予測

アンドリュー・ン教授(スタンフォード大学コンピュータサイエンスおよび電気工学准教授)は、「人工知能は...