一般的な視覚的推論が出現、カリフォルニア大学バークレー校が単一の純粋なCV大規模モデルを改良、3人の上級学者が参加

一般的な視覚的推論が出現、カリフォルニア大学バークレー校が単一の純粋なCV大規模モデルを改良、3人の上級学者が参加

最近では、GPT や LLaMA などの大規模言語モデル (LLM) が世界中で人気になっています。

同様によくある質問は、「大規模ビジュアルモデル (LVM) を構築するには何が必要か?」です。

LLaVA などの視覚言語モデルによって提供されるアイデアは興味深く、検討する価値がありますが、動物界の法則に基づくと、視覚能力と言語能力は関連がないことはすでにわかっています。たとえば、多くの実験により、非ヒト霊長類の言語体系は人間のものと「完全に異なる」にもかかわらず、その視覚世界は人間のものと非常に似ていることが示されています。

最近の論文で、カリフォルニア大学バークレー校とジョンズ・ホプキンス大学の研究者らは、ピクセルだけでどこまでできるのかという別の疑問に対する答えを探りました。


  • 論文アドレス: https://arxiv.org/abs/2312.00785
  • プロジェクトホームページ: https://yutongbai.com/lvm.html

研究者が LVM でエミュレートしようとしている LLM の主な機能は、1) データのサイズに合わせたスケーリング、および 2) ヒント (コンテキスト学習) によるタスクの柔軟な指定です。

データ、アーキテクチャ、損失関数という 3 つの主要コンポーネントを指定します。

データに関して言えば、研究者は視覚データの驚くべき多様性を活用したいと考えています。私たちはラベル付けされていない生の画像とビデオから始めて、過去数十年間に生成されたさまざまなラベル付けされた視覚データ ソース (セマンティック セグメンテーション、深度再構築、キーポイント、マルチビュー 3D オブジェクトなど) を活用します。彼らは、ピクセルを超えたメタ知識を必要とせずに、これらのさまざまな注釈を表すために、「視覚的な文章」という共通形式を定義します。トレーニング セットの合計サイズは 16 億 4,000 万枚の画像/フレームです。

アーキテクチャの面では、研究者らは大規模なトランスフォーマー アーキテクチャ (30 億のパラメータ) を使用し、トークン シーケンスとして表される視覚データでトレーニングし、学習したトークナイザーを使用して各画像を 256 個のベクトル量子化トークンの文字列にマッピングしました。

損失関数に関しては、研究者たちは自然言語コミュニティからインスピレーションを得ました。そこでは、マスクされたトークンモデリングがシーケンス自己回帰予測法に「取って代わられました」。画像、ビデオ、注釈付き画像をシーケンスとして表現できるようになると、トレーニングされたモデルは次のトークンを予測するときにクロスエントロピー損失を最小限に抑えることができます。

この極めてシンプルな設計により、研究者たちはいくつかの注目すべき動作を実証しました。

  • モデルのサイズとデータのサイズが大きくなるにつれて、モデルは適切なスケーリング動作を示します。
  • 現在では、テスト時に適切なプロンプトを設計することで、さまざまな視覚タスクを解決できるようになりました。特別にトレーニングされたカスタムモデルほど高性能ではありませんが、単一のビジョンモデルで非常に多くのタスクを解決できるという事実は非常に心強いものです。
  • 大量の教師なしデータは、さまざまな標準的な視覚タスクのパフォーマンスに大きな影響を与えます。
  • 分布外データの処理や新しいタスクの実行時に、一般的な視覚的推論能力が発揮される可能性が示唆されていますが、さらなる調査が必要です。

ジョンズ・ホプキンス大学のコンピューターサイエンスの博士課程4年生であり、バークレー大学の客員博士課程学生で、この論文の共同筆頭著者でもあるユートン・バイ氏は、自分たちの研究を宣伝するためにツイートした。

画像出典: https://twitter.com/YutongBAI1002/status/1731512110247473608

論文の著者のうち、最後の 3 人はカリフォルニア大学バークレー校の CV 分野の上級学者です。トレバー・ダレル教授はバークレー人工知能研究所 (BAIR) の創設共同所長であり、ジテンドラ・マリク教授は 2019 IEEE コンピュータ パイオニア賞を受賞し、アレクセイ A. エフロス教授は特に最近接点に関する研究で知られています。

左から右へ: Trevor Darrell、Jitendra Malik、Alexei A. Efros。

方法の紹介

私たちは 2 段階のアプローチを採用しています。1) 各画像をビジュアル トークンのシーケンスに変換できる大規模なビジュアル トークナイザー (単一の画像で動作) をトレーニングします。2) 各文がトークンのシーケンスとして表されるビジュアル文に対して自己回帰トランスフォーマー モデルをトレーニングします。方法は図 2 に示されています。

画像のトークン化

Transformer モデルを画像に適用するための一般的な操作には、画像をパッチに分割してシーケンスとして扱うことや、VQVAE や VQGAN などの事前トレーニング済みの画像トークナイザーを使用して画像の特徴を個別のトークン グリッドに集約することなどがあります。本論文では後者の方法、つまりVQGANモデルを使用してセマンティックトークンを生成する方法を採用しています。

LVM フレームワークには、エンコードおよびデコード メカニズムが含まれており、量子化レイヤーも備えています。エンコーダーとデコーダーは畳み込みレイヤーを使用して構築されます。エンコーダーには、入力の空間次元を縮小するための複数のダウンサンプリング モジュールが装備されており、デコーダーには、画像を元のサイズに戻すための一連の同等のアップサンプリング モジュールが装備されています。特定の画像に対して、VQGAN トークナイザーは 256 個の個別のトークンを生成します。

実装の詳細。この論文では、Chang らが提案した VQGAN アーキテクチャを採用し、Chang らが使用した設定に従います。ここで、ダウンサンプリング係数は f = 16、コードブックのサイズは 8192 です。つまり、サイズが 256 × 256 の画像の場合、VQGAN トークナイザーは 16 × 16 = 256 個のトークンを生成し、各トークンは 8192 個の異なる値を取ることができます。さらに、この論文では、LAION 5B データセットの 1.5B サブセットでトークナイザーをトレーニングします。

ビジュアル文章シーケンスモデリング

本論文では、VQGAN を使用して画像を離散トークンに変換した後、複数の画像内の離散トークンを 1 次元シーケンスに連結し、視覚的な文章を統一されたシーケンスとして扱います。重要なのは、視覚的な文章はどれも特別な扱いを受けていない、つまり、特定のタスクや形式を示すために特別なトークンが使用されていないことです。

ビジュアルセンテンスを使用すると、さまざまなビジュアルデータを統一された画像シーケンス構造にフォーマットできます。

実装の詳細。ビジュアルセンテンス内の各画像を 256 個のトークンにトークン化した後、それらを連結して 1D トークンシーケンスを形成します。視覚トークンシーケンスに関しては、この論文のTransformerモデルは実際には自己回帰言語モデルと同じであるため、LLaMAのTransformerアーキテクチャを採用しています。

本論文で使用したコンテキスト長は4096トークンです。言語モデルと同様に、本論文では各ビジュアルセンテンスの先頭に[BOS](文頭)トークン、末尾に[EOS](文末)トークンを追加し、トレーニング中にシーケンス連結を使用して効率を向上させています。

この論文では、UVDv1 データセット全体 (4,200 億トークン) でモデルをトレーニングし、3 億、6 億、10 億、30 億という異なる数のパラメータを持つ合計 4 つのモデルをトレーニングします。

実験結果

この研究では、モデルの拡張能力と、さまざまなタスクを理解して回答する能力を評価するための実験が行われました。

拡張機能

下の図 3 に示すように、この研究ではまず、さまざまなサイズの LVM のトレーニング損失を調べました。

下の図 4 に示すように、モデルが大きいほどすべてのタスクの複雑さが低くなり、モデルの全体的なパフォーマンスをさまざまな下流タスクに転送できることがわかります。

下の図 5 に示すように、各データ コンポーネントは下流のタスクにとって重要な役割を果たします。 LVM は、より大きなデータでメリットが得られるだけでなく、データ セットの多様性によっても改善されます。

シーケンスプロンプト

LVM のさまざまなプロンプトを理解する能力をテストするために、本研究ではまず、順次推論タスクにおける LVM の評価実験を実施しました。プロンプトは非常にシンプルです。モデルに 7 枚の画像のシーケンスを提供し、次の画像を予測するように依頼します。実験結果を下の図 6 に示します。

この研究では、特定のカテゴリのアイテムのリストをシーケンスとして考慮し、LVM に同じカテゴリの画像を予測させました。実験結果を下の図 15 に示します。

では、後続のフレームを正確に予測するには、どの程度のコンテキストが必要でしょうか?

この研究では、異なる長さ(1~15フレーム)のコンテキストプロンプトを与えられたモデルのフレーム生成の困惑度を評価しました。結果を下の図7に示します。困惑度は1フレームから11フレームにかけて大幅に改善し、その後安定しました(62.1→48.4)。

類推プロンプト

この研究では、LVM の高度な解釈機能をテストするために、より複雑なプロンプト構造である Analogy Prompt も評価しました。

下の図 8 は、多くのタスクに対する Analogy Prompt の定性的な結果を示しています。

ビジュアルプロンプトとの比較を以下に示します。シーケンス LVM は、ほぼすべてのタスクで以前の方法よりも優れています。

合成タスク。図 9 は、単一のプロンプトを使用して複数のタスクを組み合わせた結果を示しています。

その他のプロンプト

研究者たちは、これまで見たことのないさまざまなプロンプトをモデルに提供することで、モデルがどの程度拡張できるかを観察しようとした。下の図 10 は、これらのプロンプトの一部が適切に機能していることを示しています。

下の図 11 は、言葉で説明するのが難しいプロンプトを示しています。これらのタスクでは、LVM が最終的に LLM を上回る可能性があります。

図 13 は、非言語的人間の IQ テストに見られる典型的な視覚的推論の質問に対する予備的な定性的な結果を示しています。

詳細については、元の記事をお読みください。

<<:  大規模なモデルをグローバルに微調整できないわけではなく、LoRA の方がコスト効率が高いだけです。チュートリアルは準備完了です。

>>:  RPAとAIを組み合わせることで、自動化の新しい世界が開かれます

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能が教育に与える影響は技術サポートだけにとどまらない

統合と国境を越えた発展が進む今日の世界において、教育が象牙の塔に留まり、自己満足に浸っているだけでは...

...

脳とコンピューターのインターフェースのための新しい「接着剤」が発明され、人間と機械の融合「サイボーグ」における新たな進歩がもたらされる

マスク氏の脳コンピューターインターフェースは「人間でテスト」されようとしているが、侵襲的な脳コンピュ...

次のマーク・ザッカーバーグはAIになるのか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

韓国はLK-99の室温超伝導は証明できないと信じており、国内チームは拡張された材料が魔法のような特性を持っていると信じている

韓国でセンセーショナルな「常温超伝導」事件が最近終息したようだ。韓国超伝導低温学会の検証委員会は最近...

...

マイクロソフトは言語モデルをより調和のとれたものにするために複数のツールとデータセットをオープンソース化

Microsoft は最近、AI 駆動型コンテンツ モデレーション システムを監査し、AI モデルの...

AIがテキストを元に「抽象画」を描いたらどうなるでしょうか? |DeepMindの新アルゴリズム

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

キャッシュ、キャッシュ アルゴリズム、キャッシュ フレームワークの概要

導入私たちは皆、キャッシュについて聞いたことがあります。キャッシュとは何かと尋ねると、完璧な答えが返...

...

将来の成長の原動力は?ビッグデータ+人工知能が浸透し、私たちの生活を変える

画像ソース: Unsplash新世代情報技術の急速な発展に伴い、コンピューティング能力、データ処理能...

仕事の未来に役立つAIの3つの重要な要素

[[255096]]私たちは今、デジタル変革を通じて、人工知能 (AI) と機械学習という 1 つの...

Python が Java や C/C++ に勝って機械学習に最適な言語である理由!

Python は、1989 年にオランダ人の Guido van Rossum によって発明され、...

ゲーム内で優れたリアルタイム音声体験を提供する方法

ゲーム内音声通信の要件2015 年にはすでに、iMedia Research がモバイル ゲームのソ...