Microsoft は GPT-4V マニュアルを作成しました。166 ページに及ぶ完全かつ詳細な説明と、プロンプト ワードのデモ例が含まれています。

Microsoft は GPT-4V マニュアルを作成しました。166 ページに及ぶ完全かつ詳細な説明と、プロンプト ワードのデモ例が含まれています。

マルチモーダルキングボムモデルGPT-4V、 166ページの「取扱説明書」を公開!これは Microsoft チームによって制作されました。

166 ページにどのような論文を書くことができますか?

基本的な画像認識から複雑な論理的推論まで、 10 の主要タスクにおける GPT-4V のパフォーマンスを詳細に評価するだけでなく、

マルチモーダルな大規模モデルプロンプトを使用するためのヒントもすべて教えられます——

回答の専門性は一目でわかり、GPT-4V を使用するハードルが本当にゼロになります。

この論文の著者も「全員中国人チーム」であることは特筆に値します。7人の著者は全員中国人で、マイクロソフトで17年間勤務した女性の主任研究マネージャーがチームを率いています。

166 ページのレポートが公開される前に、彼らは OpenAI の最新の DALL·E 3 研究にも参加しており、この分野について深い理解を持っています。

OpenAI の 18 ページの GPT-4V 論文と比較すると、この 166 ページの「使用ガイド」は、リリースされるとすぐに GPT-4V ユーザーにとって必読の書とみなされました。

一部のネットユーザーは「これは論文ではなく、ほぼ166ページの本だ」と嘆いた。

これを見たネットユーザーの中にはすでにパニックに陥っている者もいた。

GPT-4V の回答の詳細だけを見るのではなく、AI が示す潜在的な能力に本当に恐怖を感じます。

では、Microsoft のこの「論文」は具体的に何について語っているのでしょうか。また、GPT-4V のどのような「可能性」を示しているのでしょうか。

Microsoft の 166 ページのレポートには何が書かれていますか?

この論文の GPT-4V の研究方法の核心は、 「試してみる」という一言にあります。

Microsoft の研究者は、複数のドメインをカバーする一連の入力を設計し、それを GPT-4V に供給し、GPT-4V の出力を観察して記録しました。

その後、研究者らはGPT-4Vがさまざまなタスクを完了する能力を評価し、GPT-4Vを使用するための新しいプロンプトワードスキルも提供しました。具体的には、次の4つの側面が含まれます。

1. GPT-4Vの使用方法:

5 つの使用モード: 入力画像、サブ画像、テキスト、シーン テキスト、ビジュアル ポインター。

サポートされている 3 つの機能: 指示の追跡、思考の連鎖、コンテキスト内少数ショット学習。

例えば、思考の連鎖に基づいて質問方法を変更した後、GPT-4V が示した指示に従う能力は次のとおりです。

2. 10のタスクにおけるGPT-4Vのパフォーマンス:

オープンワールドの視覚理解、視覚的説明、マルチモーダル知識、常識、シーンテキスト理解、文書推論、コーディング、時間的推論、抽象的推論、感情理解

これには、回答するためにある程度の IQ を必要とする「イメージ推論の質問」が含まれます。

3. GPT-4Vのようなマルチモーダル大規模モデルのヒント:

入力画像を直接編集することで興味のあるタスクを示し、他のプロンプト技術と組み合わせて使用​​できる新しいマルチモーダルプロンプト技術「視覚参照プロンプト」が提案されています。

4. マルチモーダル大規模モデルの研究と実装の可能性:

マルチモーダル学習の研究者が注力すべき 2 つの領域として、実装 (潜在的なアプリケーション シナリオ) と研究の方向性が予測されます。

たとえば、これは研究者が GPT-4V が有用であるとわかったシナリオの 1 つです (障害検出)。

しかし、新しいプロンプトワード技術であろうと、GPT-4V の応用シナリオであろうと、誰もが最も関心を持っているのは、GPT-4V の真の強みです。

そのため、この「取扱説明書」では、150 ページ以上にわたってさまざまなデモを紹介し、さまざまな回答に直面した場合の GPT-4V の機能を詳しく説明しました。

GPT-4V のマルチモーダル機能がどこまで進化したかを見てみましょう。

専門分野の映像に精通し、その場で知識を学ぶこともできる

画像認識

最も基本的な認識は、もちろん、テクノロジー、スポーツ、エンターテインメント界の有名人など、非常に簡単です。

これらの人々が誰であるかがわかるだけでなく、彼らが何をしているのかも解釈できます。たとえば、下の写真では、Huang が Nvidia の新発売のグラフィック カード製品を紹介しています。

人物だけでなく、ランドマークとなる建物も GPT-4V なら簡単に特定できます。名前や場所を特定するだけでなく、詳細な紹介も行えます。

△左:ニューヨーク・タイムズスクエア、右:京都・金閣寺

ただし、人物や場所が有名であればあるほど、判断が容易になるため、GPT-4V の機能を実証するには、より難しい写真が必要になります。

たとえば、医療画像処理では、GPT-4V は以下の肺 CT 画像に対して次のような結論を出します。

両肺の複数の領域に凝固とすりガラス陰影が見られ、肺の感染または炎症を示している可能性があります。右上葉に腫瘤または結節が存在する場合もあります。

GPT-4V に画像の種類や場所を伝えなくても、GPT-4V が独自に判断することができます。

この写真では、GPT-4V はこれが脳の磁気共鳴画像 (MRI) 画像であることを正常に識別しました。

同時に、GPT-4Vでは大量の体液蓄積も発見され、これは高悪性度の脳神経膠腫であると考えられました。

専門家の判断により、GPT-4V によって出された結論は完全に正しいと判明しました。

GPT-4Vは、こうした「真面目な」内容に加え、現代人類社会の「無形文化遺産」である絵文字も把握しました。


△機械翻訳、参考のみ

GPT-4 は、絵文字のミームを解釈できるだけでなく、現実世界の人間の表情で表現される感情も解釈できます。


これらの実際の画像に加えて、テキスト認識もマシンビジョンにおける重要なタスクです。

この点で、GPT-4Vはラテン語で書かれた言語だけでなく、中国語、日本語、ギリシャ語などの他の文字も認識できます。

手書きの数式でも:

画像推論

上記のデモは、どれほど専門的であったり、理解しにくいものであっても、まだ認識の域を出ていませんが、これは GPT-4V のスキルの氷山の一角にすぎません。

GPT-4V は、画像の内容を理解するだけでなく、特定の推論機能も備えています。

簡単に言えば、GPT-4V は 2 つの画像の違いを見つけることができます (ただし、まだいくつかのエラーがあります)。

次の一連の写真では、クラウンとボウの違いが GPT-4V によって発見されました。

難易度を上げると、GPT-4V は IQ テストのグラフィック問題も解くことができます。



上記の 3 つの質問の特徴や論理関係は比較的単純ですが、次の質問では難易度が高くなります。

もちろん、グラフ自体に難しさがあるわけではありません。グラフ内の 4 番目のテキストの説明に注目してください。元の質問のグラフの配置は、グラフに示されているとおりではありません。

画像注釈

GPT-4V は、テキストでさまざまな質問に答えるだけでなく、画像に対してさまざまな操作を実行することもできます。

たとえば、4 人の AI 巨人の集合写真があり、GPT-4V で人物をフレームに収め、名前と簡単な紹介をマークしたいとします。

GPT-4V はまずこれらの質問にテキストで回答し、次に処理された画像を提供しました。

動的コンテンツ分析

GPT-4V はこれらの静的コンテンツに加えて動的分析も実行できますが、モデルにビデオを直接供給することはありません。

以下の 5 つの写真は寿司の作り方のチュートリアル ビデオから取られたもので、GPT-4V のタスクは、 (コンテンツを理解した上で)これらの写真が表示される順序を推測することです。

同じ一連の写真でも、理解の仕方が異なる場合があり、GPT-4V はテキストプロンプトに基づいて判断を行います。

たとえば、次の一連の写真では、人物の動作がドアを開けることなのか、ドアを閉めることなのかによって、ソート結果はまったく逆になります。

もちろん、複数の画像でキャラクターの状態の変化を見ることで、彼らが何をしているのかを推測することもできます。

次に何が起こるかを予測する:

「現地学習」

GPT-4V は強力な視覚機能を備えているだけでなく、さらに重要なことに、すぐに学習して適用することができます。

別の例を見てみましょう。GPT-4V に車のダッシュボードを読み取らせます。最初に得た答えは間違っていました。

その後、私は GPT-4V にその方法を言葉で伝えましたが、答えはまだ間違っていました。

次に、この例を GPT-4V に示しましたが、答えは同様でしたが、残念ながら数字は架空のものでした。

1 つの例だけでは確かに少し少なすぎますが、サンプル数が増えるにつれて(実際には 1 つだけ増えただけ) 、GPT-4V は懸命な努力の末、ようやく正しい答えを返しました。

GPT-4V の効果は以上です。もちろん、ここでは一つ一つ紹介しきれないほど多くの分野やタスクもサポートしています。ご興味がおありの方は、元のレポートをお読みください。

では、GPT-4V の驚くべき効果の背後にはどのようなチームがいるのでしょうか?

清華大学の卒業生が率いる

この論文の著者は全部で 7 名おり、全員が中国人で、そのうち 6 名が中心著者です。

このプロジェクトの主執筆者である Lijuan Wang 氏は、マイクロソフトのクラウド コンピューティングおよび AI 担当の主任研究マネージャーです。

彼女は中国の華中科技大学で学士号を取得し、清華大学で博士号を取得しました。2006 年に Microsoft Research Asia に入社し、2016 年にレドモンドの Microsoft Research に入社しました。

彼女の研究分野は、マルチモーダル知覚知能に基づくディープラーニングと機械学習であり、具体的には、視覚言語モデルの事前トレーニング、画像キャプション生成、オブジェクト検出などの AI テクノロジーが含まれます。

元のアドレス: https://arxiv.org/abs/2309.17421

<<:  最大400万のトークンコンテキストと22倍の推論速度を備えたStreamingLLMは人気を博し、GitHubで2.5Kのスターを獲得しました。

>>: 

ブログ    
ブログ    
ブログ    

推薦する

ザッカーバーグ氏がCharacter.AIの1:1レプリカである仮想チャットAIをリリース?ユーザーの不満: 設定が古すぎる

ユーザーがTikTokにどんどん奪われ、毎日のアクティブユーザー数が減り続けているという現実に直面し...

新しい研究では、AIを使用してトラウマ性解離を引き起こす脳領域を探索する

[[344125]]解離や解離性障害は、特に幼少期に極度のトラウマや慢性的な虐待を経験した人々によっ...

ViTと競合するDeepMindは、スパースモデルからソフト混合エキスパートモデルに移行

大規模モデルが驚くべきパフォーマンスを示したため、モデルのサイズはモデルのパフォーマンスに影響を与え...

...

...

スマート端末AxPOS A8Sは単なるハードウェアのフラッシュではありません

AxPOS A8Sは、LianDi Commercialが2020年に構築に注力した新世代のスマート...

NTRU 1.2 リリース Java 用 NTRU 暗号化アルゴリズム ライブラリ

NTRU 1.2 バージョンには多くの機能強化とバグ修正が含まれていますが、このバージョンは以前のバ...

デジタルマーケティングにおけるAI革命

ほんの数年前までは、マーケティングに特化した AI エンジンがマーケティングの未来につながると信じて...

...

ドローンの耐久性の低さの問題を軽減するために、一般の人がこれを行うことができます

[[396949]]近年、新世代の通信およびナビゲーション技術の継続的な進歩を背景に、我が国のドロー...

...

...

脆弱なニューラル ネットワーク: カリフォルニア大学バークレー校が敵対的サンプル生成のメカニズムを説明します。

ニューラル ネットワークを「騙す」ために使用される敵対的サンプルは、コンピューター ビジョンと機械学...

ハルビン工科大学と快手が共同でCogGPTを提案:大規模モデルにも認知反復が必要

認知科学の分野では、人間が継続的な学習を通じて認知を変化させるプロセスを認知ダイナミクスと呼びます。...

工業情報化部:我が国のAIコア産業規模は5000億元に達し、2,500以上のデジタルワークショップとスマートファクトリーが建設されました

2023年中国(太原)人工知能会議が本日、山西省太原で開幕しました。中国工業情報化部科学技術部の任愛...