一般的な視覚的推論が出現、カリフォルニア大学バークレー校が単一の純粋なCV大規模モデルを改良、3人の上級学者が参加

一般的な視覚的推論が出現、カリフォルニア大学バークレー校が単一の純粋なCV大規模モデルを改良、3人の上級学者が参加

最近では、GPT や LLaMA などの大規模言語モデル (LLM) が世界中で人気になっています。

同様によくある質問は、「大規模ビジュアルモデル (LVM) を構築するには何が必要か?」です。

LLaVA などの視覚言語モデルによって提供されるアイデアは興味深く、検討する価値がありますが、動物界の法則に基づくと、視覚能力と言語能力は関連がないことはすでにわかっています。たとえば、多くの実験により、非ヒト霊長類の言語体系は人間のものと「完全に異なる」にもかかわらず、その視覚世界は人間のものと非常に似ていることが示されています。

最近の論文で、カリフォルニア大学バークレー校とジョンズ・ホプキンス大学の研究者らは、ピクセルだけでどこまでできるのかという別の疑問に対する答えを探りました。


  • 論文アドレス: https://arxiv.org/abs/2312.00785
  • プロジェクトホームページ: https://yutongbai.com/lvm.html

研究者が LVM でエミュレートしようとしている LLM の主な機能は、1) データのサイズに合わせたスケーリング、および 2) ヒント (コンテキスト学習) によるタスクの柔軟な指定です。

データ、アーキテクチャ、損失関数という 3 つの主要コンポーネントを指定します。

データに関して言えば、研究者は視覚データの驚くべき多様性を活用したいと考えています。私たちはラベル付けされていない生の画像とビデオから始めて、過去数十年間に生成されたさまざまなラベル付けされた視覚データ ソース (セマンティック セグメンテーション、深度再構築、キーポイント、マルチビュー 3D オブジェクトなど) を活用します。彼らは、ピクセルを超えたメタ知識を必要とせずに、これらのさまざまな注釈を表すために、「視覚的な文章」という共通形式を定義します。トレーニング セットの合計サイズは 16 億 4,000 万枚の画像/フレームです。

アーキテクチャの面では、研究者らは大規模なトランスフォーマー アーキテクチャ (30 億のパラメータ) を使用し、トークン シーケンスとして表される視覚データでトレーニングし、学習したトークナイザーを使用して各画像を 256 個のベクトル量子化トークンの文字列にマッピングしました。

損失関数に関しては、研究者たちは自然言語コミュニティからインスピレーションを得ました。そこでは、マスクされたトークンモデリングがシーケンス自己回帰予測法に「取って代わられました」。画像、ビデオ、注釈付き画像をシーケンスとして表現できるようになると、トレーニングされたモデルは次のトークンを予測するときにクロスエントロピー損失を最小限に抑えることができます。

この極めてシンプルな設計により、研究者たちはいくつかの注目すべき動作を実証しました。

  • モデルのサイズとデータのサイズが大きくなるにつれて、モデルは適切なスケーリング動作を示します。
  • 現在では、テスト時に適切なプロンプトを設計することで、さまざまな視覚タスクを解決できるようになりました。特別にトレーニングされたカスタムモデルほど高性能ではありませんが、単一のビジョンモデルで非常に多くのタスクを解決できるという事実は非常に心強いものです。
  • 大量の教師なしデータは、さまざまな標準的な視覚タスクのパフォーマンスに大きな影響を与えます。
  • 分布外データの処理や新しいタスクの実行時に、一般的な視覚的推論能力が発揮される可能性が示唆されていますが、さらなる調査が必要です。

ジョンズ・ホプキンス大学のコンピューターサイエンスの博士課程4年生であり、バークレー大学の客員博士課程学生で、この論文の共同筆頭著者でもあるユートン・バイ氏は、自分たちの研究を宣伝するためにツイートした。

画像出典: https://twitter.com/YutongBAI1002/status/1731512110247473608

論文の著者のうち、最後の 3 人はカリフォルニア大学バークレー校の CV 分野の上級学者です。トレバー・ダレル教授はバークレー人工知能研究所 (BAIR) の創設共同所長であり、ジテンドラ・マリク教授は 2019 IEEE コンピュータ パイオニア賞を受賞し、アレクセイ A. エフロス教授は特に最近接点に関する研究で知られています。

左から右へ: Trevor Darrell、Jitendra Malik、Alexei A. Efros。

方法の紹介

私たちは 2 段階のアプローチを採用しています。1) 各画像をビジュアル トークンのシーケンスに変換できる大規模なビジュアル トークナイザー (単一の画像で動作) をトレーニングします。2) 各文がトークンのシーケンスとして表されるビジュアル文に対して自己回帰トランスフォーマー モデルをトレーニングします。方法は図 2 に示されています。

画像のトークン化

Transformer モデルを画像に適用するための一般的な操作には、画像をパッチに分割してシーケンスとして扱うことや、VQVAE や VQGAN などの事前トレーニング済みの画像トークナイザーを使用して画像の特徴を個別のトークン グリッドに集約することなどがあります。本論文では後者の方法、つまりVQGANモデルを使用してセマンティックトークンを生成する方法を採用しています。

LVM フレームワークには、エンコードおよびデコード メカニズムが含まれており、量子化レイヤーも備えています。エンコーダーとデコーダーは畳み込みレイヤーを使用して構築されます。エンコーダーには、入力の空間次元を縮小するための複数のダウンサンプリング モジュールが装備されており、デコーダーには、画像を元のサイズに戻すための一連の同等のアップサンプリング モジュールが装備されています。特定の画像に対して、VQGAN トークナイザーは 256 個の個別のトークンを生成します。

実装の詳細。この論文では、Chang らが提案した VQGAN アーキテクチャを採用し、Chang らが使用した設定に従います。ここで、ダウンサンプリング係数は f = 16、コードブックのサイズは 8192 です。つまり、サイズが 256 × 256 の画像の場合、VQGAN トークナイザーは 16 × 16 = 256 個のトークンを生成し、各トークンは 8192 個の異なる値を取ることができます。さらに、この論文では、LAION 5B データセットの 1.5B サブセットでトークナイザーをトレーニングします。

ビジュアル文章シーケンスモデリング

本論文では、VQGAN を使用して画像を離散トークンに変換した後、複数の画像内の離散トークンを 1 次元シーケンスに連結し、視覚的な文章を統一されたシーケンスとして扱います。重要なのは、視覚的な文章はどれも特別な扱いを受けていない、つまり、特定のタスクや形式を示すために特別なトークンが使用されていないことです。

ビジュアルセンテンスを使用すると、さまざまなビジュアルデータを統一された画像シーケンス構造にフォーマットできます。

実装の詳細。ビジュアルセンテンス内の各画像を 256 個のトークンにトークン化した後、それらを連結して 1D トークンシーケンスを形成します。視覚トークンシーケンスに関しては、この論文のTransformerモデルは実際には自己回帰言語モデルと同じであるため、LLaMAのTransformerアーキテクチャを採用しています。

本論文で使用したコンテキスト長は4096トークンです。言語モデルと同様に、本論文では各ビジュアルセンテンスの先頭に[BOS](文頭)トークン、末尾に[EOS](文末)トークンを追加し、トレーニング中にシーケンス連結を使用して効率を向上させています。

この論文では、UVDv1 データセット全体 (4,200 億トークン) でモデルをトレーニングし、3 億、6 億、10 億、30 億という異なる数のパラメータを持つ合計 4 つのモデルをトレーニングします。

実験結果

この研究では、モデルの拡張能力と、さまざまなタスクを理解して回答する能力を評価するための実験が行われました。

拡張機能

下の図 3 に示すように、この研究ではまず、さまざまなサイズの LVM のトレーニング損失を調べました。

下の図 4 に示すように、モデルが大きいほどすべてのタスクの複雑さが低くなり、モデルの全体的なパフォーマンスをさまざまな下流タスクに転送できることがわかります。

下の図 5 に示すように、各データ コンポーネントは下流のタスクにとって重要な役割を果たします。 LVM は、より大きなデータでメリットが得られるだけでなく、データ セットの多様性によっても改善されます。

シーケンスプロンプト

LVM のさまざまなプロンプトを理解する能力をテストするために、本研究ではまず、順次推論タスクにおける LVM の評価実験を実施しました。プロンプトは非常にシンプルです。モデルに 7 枚の画像のシーケンスを提供し、次の画像を予測するように依頼します。実験結果を下の図 6 に示します。

この研究では、特定のカテゴリのアイテムのリストをシーケンスとして考慮し、LVM に同じカテゴリの画像を予測させました。実験結果を下の図 15 に示します。

では、後続のフレームを正確に予測するには、どの程度のコンテキストが必要でしょうか?

この研究では、異なる長さ(1~15フレーム)のコンテキストプロンプトを与えられたモデルのフレーム生成の困惑度を評価しました。結果を下の図7に示します。困惑度は1フレームから11フレームにかけて大幅に改善し、その後安定しました(62.1→48.4)。

類推プロンプト

この研究では、LVM の高度な解釈機能をテストするために、より複雑なプロンプト構造である Analogy Prompt も評価しました。

下の図 8 は、多くのタスクに対する Analogy Prompt の定性的な結果を示しています。

ビジュアルプロンプトとの比較を以下に示します。シーケンス LVM は、ほぼすべてのタスクで以前の方法よりも優れています。

合成タスク。図 9 は、単一のプロンプトを使用して複数のタスクを組み合わせた結果を示しています。

その他のプロンプト

研究者たちは、これまで見たことのないさまざまなプロンプトをモデルに提供することで、モデルがどの程度拡張できるかを観察しようとした。下の図 10 は、これらのプロンプトの一部が適切に機能していることを示しています。

下の図 11 は、言葉で説明するのが難しいプロンプトを示しています。これらのタスクでは、LVM が最終的に LLM を上回る可能性があります。

図 13 は、非言語的人間の IQ テストに見られる典型的な視覚的推論の質問に対する予備的な定性的な結果を示しています。

詳細については、元の記事をお読みください。

<<:  大規模なモデルをグローバルに微調整できないわけではなく、LoRA の方がコスト効率が高いだけです。チュートリアルは準備完了です。

>>:  RPAとAIを組み合わせることで、自動化の新しい世界が開かれます

ブログ    
ブログ    

推薦する

人工知能を活用した診断・治療の現状と戦略に関する研究

1. はじめにわが国では毎年、さまざまな医療機関における診察や治療の総回数が70億回を超えており、医...

動的グラフのディープラーニング - 時系列グラフネットワークモデリング

インターネットから収集したコンテンツさまざまな性質のトランザクション ネットワークや社会的つながりを...

人工知能は宇宙人を発見するのに役立つかもしれない

米国の宇宙ウェブサイトによると、多くの科学者が人工知能(AI)を使ってエイリアン(学名は「地球外知的...

2024 年の人工知能に関するトップ 10 の予測

2023年の人工知能分野でキーワードを1つだけ選ぶとしたら、それはおそらく「ビッグモデル」でしょう。...

...

2021年に予測される6つのテクノロジートレンド

2020年、COVID-19パンデミックは世界各国の経済に壊滅的な影響を及ぼし、業界を問わずビジネス...

Julia言語を使用して「準同型暗号化+機械学習」を実装するには?

[[285696]]最近、「ブロックチェーン」や「フェデレーテッドラーニング」などの概念がかつてな...

...

...

機械学習への8つのステップ

先月、Kaggle の共同創設者兼 CTO である Ben Hamner 氏が、Kaggle、機械学...

古典へのオマージュ!ボストンダイナミクスのロボットが40年前のローリングストーンズのダンスを正確に再現

ボストン・ダイナミクスが「バンドで演奏」します!今回のターゲットは有名な「ローリング・ストーンズ」。...

なぜ今、AI 画像はすべて女性なのでしょうか?人間とコンピュータの相互作用のメンタルモデルから始めましょう

興味深い質問です。Siri、Cortana、Alexa など、ほとんどの AI ロボットや音声アシス...

アクセンチュアが世界の主要12産業を分析、AIは2035年までに中国に7兆ドルの生産をもたらす

導入世界的に有名なコンサルティング会社であるアクセンチュアは最近、AI がもたらす産業革新がもたらす...

DeepSpeed ZeRO++: ネットワーク通信を4倍削減し、大規模モデルやChatGPTのようなモデルのトレーニング効率を大幅に向上

大規模な AI モデルがデジタルの世界を変えています。大規模言語モデル (LLM) に基づく Tur...

人工知能は、研究論文の合理的で興味深く、科学的に価値のあるタイトルを生成できるかもしれない。

人工知能(AI)技術は、将来の研究論文に対して、説得力があり、面白く、科学的な見出しを生成できること...