大きな言語モデルに目を向けると、その画像認識性能は CLIP を超えています。スタンフォードのよ​​うな新しい方法では、マルチモーダル事前トレーニングは不要である

大きな言語モデルに目を向けると、その画像認識性能は CLIP を超えています。スタンフォードのよ​​うな新しい方法では、マルチモーダル事前トレーニングは不要である

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

大規模言語モデルは、マルチモーダルデータに依存せずにグラフを理解できますか? !

では早速、結果を見てみましょう。

たとえば、BLIP-2 がテストされた万里の長城の写真を見てみましょう。BLIP-2 はそれが万里の長城であると認識しただけでなく、歴史についていくつかの言葉も伝えました。

こちらも奇妙な形の家です。異常性を正確に識別し、出入りの方法も知っています。

意図的に「赤」を紫にして、「緑」を赤く塗っても、干渉しません。

これは、研究者によって最近提案された新しいモジュールフレームワークであるLENS🔍(Language-Enhanced Neural System)の認識効果です。

重要なのは、マルチモーダルデータセットに対する追加の事前トレーニングは必要なく、既存の大規模言語モデルのみを使用してオブジェクト認識と視覚推論タスクを完了できることです。

お金と労力を節約しましょう!

研究者らは次のように述べた。

このアプローチは、ゼロショットの場合にすぐに使用できるマルチモーダル大規模モデルKosmosや、 Flamingoなどのエンドツーエンドのジョイント事前トレーニング済みモデルに匹敵し、パフォーマンスはさらに優れている可能性があります。

これを見たネットユーザーは憤慨した。

家族の皆さん、興奮しています!大規模モデルのトレーニングに使用されるリソースを、さまざまな分野の問題の解決に使用できるようになりました。 😃

一部のネットユーザーは次のようにも述べた。

どのモジュールが視覚的推論を最も向上させるかを見るのは興味深いでしょう。

これはどうやって行うのですか?

既存の LLM は自然言語の理解と推論においては優れたパフォーマンスを発揮していますが、視覚入力からの推論というタスクに直接対応できるものはありません。

この研究は、Contextual AI とスタンフォード大学の研究者による共同作業であり、LLM を固定言語モデル(トレーニングや微調整が行われていない) として使用し、 「視覚モジュール」からテキスト情報を入力することで、物体認識と V&L (視覚と言語) タスクを実行できるようにします。

写真

簡単に言うと、画像の内容について質問すると、この方法ではまず、タグ モジュール (タグ情報を抽出)、属性モジュール (属性情報を抽出)、集中キャプション モジュール (詳細な画像説明を生成) という 3 つの独立した「視覚モジュール」を操作して、画像に関するテキスト情報を抽出します。

この情報は、質問に回答するために、固定された LLM である推論モジュールに直接送られます。

写真

このように、LENS を統合することで、追加の事前トレーニングを必要とせずに、ドメイン全体に自動的に適用できるモデルを取得できます。また、コンピューター ビジョンと自然言語処理の最新の進歩を最大限に活用して、これらの分野の利点を最大限に引き出すことができます。

これまで、いくつかの研究では、視覚タスクを解決するために LLM を使用するいくつかの方法が提案されてきました。

  • 1 つのアプローチは、まずビジュアル エンコーダーをトレーニングし、次に各画像を LLM が理解できる連続した埋め込みのシーケンスとして表現することです。
  • もう 1 つのアプローチは、コントラストについてすでにトレーニングされている凍結されたビジュアル エンコーダーを使用しながら、凍結された LLM に新しいレイヤーを導入し、これらのレイヤーを最初からトレーニングすることです。
  • 3 番目のアプローチは、凍結されたビジュアル エンコーダー (事前トレーニング済みではない) と凍結された LLM の両方を使用し、軽量トランスフォーマーをトレーニングしてそれらを調整することです。

ビジュアル エンコーダーとは、視覚的な入力 (画像やビデオなど) を表現ベクトルに変換するために使用されるモデルまたはコンポーネントを指します。高次元の視覚データを低次元の表現に変換し、視覚情報を言語モデルが理解して処理できる形式に変換できます。

明らかに、3 つの方法すべてで、データセットを使用したマルチモーダル事前トレーニングが必要です。

写真

△視覚と言語モダリティのアライメント方法の比較、(a)は上記の3つの方法、(b)はLENS法、🔥はゼロからのトレーニング、❄️は事前トレーニングとフリーズを表す

LENS は、LLM の「推論モジュール」が「視覚モジュール」によって抽出されたテキスト データを操作できるようにする統合フレームワークを提供します。

3つの「視覚モジュール」のうちの1つであるラベリングモジュールについては、研究者らは多様で包括的なラベル語彙を収集しました。複数の画像分類データセット、オブジェクト検出およびセマンティックセグメンテーションデータセット、およびビジュアルゲノムデータセットが含まれます。画像を正確に識別してラベルを割り当てるために、研究者らは CLIP ビジュアル エンコーダーも使用しました。

このモジュールの一般的なヒントは次のとおりです。

「{クラス名}の写真」

属性情報を抽出するために使用されるビジュアル モジュールでは、GPT-3 を使用して、オブジェクト語彙内の各オブジェクトのカテゴリを区別するための視覚的な特徴の説明を生成します。コントラストのある事前トレーニング済みの CLIP ビジュアル エンコーダーを使用して、画像内のオブジェクトを認識し、関連する属性を割り当てます。

情報を詳細に説明する視覚モジュールでは、研究者らは BLIP の画像キャプション モデルを使用し、ランダム トップ k サンプリングを適用して各画像に対して N 個の説明を生成しました。これらの多様な記述は、変更されることなく「推論モジュール」に直接渡されます。

最終推論モジュールでは、LENS を任意の LLM と統合して、上記の抽出された情報を次の形式で統合できます。

 Tags: {Top-k tags} Attributes: {Top-K attributes} Captions: {Top-N Captions}. OCR: this is an image with written “{meme text}” on it. Question: {task-specific prompt} \n Short Answer:

絵文字も考慮されており、研究者はこの目的のためにOCRプロンプトを追加したことは注目に値します。

CLIPよりも優れたパフォーマンス

LENS の性能を実証するために、研究者らは実験に 8 枚の NVIDIA A100 (40GB) グラフィック カードを使用し、デフォルトの固定 LLM としてFlan-T5 モデルを使用しました。

視覚タスクについては、研究者らは 8 つのベンチマークを評価し、ゼロショットと少数ショットの両方の設定で物体認識の分野における最先端のモデルと比較しました。

写真

△LENSゼロショットによるターゲット認識タスクの結果

上記の表からわかるように、ゼロサンプルの場合、視覚バックボーンとして ViT-H/14 と凍結 LLM として Flan-T5xxl で構成される LENS は、平均で CLIP よりも 0.7% 高いパフォーマンスを発揮します。 LENS の他の組み合わせも、ほとんどの場合 CLIP よりも優れたパフォーマンスを発揮しました。

興味深いことに、研究者たちは物体認識タスクにおいて次のことを発見しました。

凍結された LLM のサイズと分類パフォーマンスの間には直接的な関係はないようです。ラベル生成アーキテクチャ (ViT バックボーン) のサイズとパフォーマンスの間には対応関係があります。

写真

△ サンプル数が少ない視覚タスクにおける LENS の平均的なパフォーマンス。

上の図に示すように、研究者らは ImageNet を除くすべてのデータセットの平均視覚パフォーマンスもプロットし、次のことを観察しました。

サンプル数を増やすとパフォーマンスが向上します。一方、フリーズした LLM のパフォーマンスと視覚パフォーマンスの間には直接的な関係はありませんが、視覚バックボーンの改善により平均的な視覚パフォーマンスが向上します。

視覚と言語のタスクについては、研究者らは 4 つの代表的な視覚的質問応答タスクを評価し、視覚と言語の様相を一致させるために追加の事前トレーニングを必要とする最先端のモデルと比較しました。

ゼロショット設定では、最先端の方法である VQAv2、OK-VQA、Rendered-SST、Hateful Memes と比較すると、LENS のパフォーマンスは、調整された事前トレーニングに大量のデータに依存する方法と依然として競争力があります。これは、Flamingo、BLIP-2、Kosmos などのより大規模で複雑なシステムと比較しても当てはまります。

LENS はほとんどの状況で適切に機能しますが、失敗するケースもいくつかあります。

写真

研究者たちは次のように考えている。

LENS の視覚機能は、その基礎となる視覚コンポーネントに大きく依存します。これらのモデルのパフォーマンスにはさらなる改善の余地があり、その利点を LLM と組み合わせる必要があります。

ポータル:
[1] https://huggingface.co/papers/2306.16410 (論文リンク)
[2] https://github.com/ContextualAI/lens (コードは現在オープンソースです)

<<:  ChatGPTを超える最初のオープンソースモデルが登場?ネットユーザーはそれを信じない

>>:  生成的敵対ネットワーク: AI におけるイノベーションの触媒

ブログ    
ブログ    

推薦する

...

315人の完全なリストが公開: インターネットの蛮行は終結すべき

2022 315 ガラは、3 月 15 日午後 8 時に予定通り開催されます。今年の315ガラは「...

フェデレーテッドラーニングも安全ではないのでしょうか? Nvidiaの研究は「プライバシーフリー」データを使用して元の画像を直接再構築します

フェデレーテッド ラーニングは、データがローカルの場所から出ないようにするプライバシー保護戦略により...

調査 | AIと機械自動化が社会に与える影響に関する世界の見解

[[358905]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

人工知能を活用した高齢者介護サービスについての考察

高齢者介護サービスも人工知能を積極的に取り入れる必要がある。両者を統合し、相互に補強し、高齢者の多様...

人工知能関連のキャリアと給与に関する 7 つの統計

現在、人手不足で高収入の AI 職種は何でしょうか? 需要が高い職種はどれでしょうか? AI はどれ...

自動運転システムにおける視覚認識モジュールの安全性テストに関する1万語

近年、ディープラーニングに基づく視覚認識技術の発展により、自動車のインターネット分野での自動運転の繁...

2019 年に CIO が AI 導入をリードできる 5 つの方法

[[261760]]詳細な宿題のレビューからバックオフィスの自動化まで、AI の進歩は今後 1 年間...

人工知能はいつか本当に人間の教師に取って代わることができるのでしょうか?

中国は教育における人工知能の応用において徐々に優位に立っています。顔認識からスタートアップ、医療教育...

Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティング インフラストラクチャ

8月12日、Juliプロジェクトシリーズ活動の第21回「大規模言語モデルのトレーニングとアプリケーシ...

開発ボードはこのように使えますか?アメリカの学者は、義肢のサポートと各指の制御に Jetson Nano を使用しています

近年、ディープラーニングベースのニューラルデコーダーは、神経補綴物の器用かつ直感的な制御を実現するた...

Node.jsを使用してテキストコンテンツをセグメント化し、キーワードを抽出する

Zhongcheng が翻訳した記事にはタグが付けられています。ユーザーはタグに基づいて興味のある記...

2020 年のベスト AI ソフトウェア開発ツール

[[328252]] AI がソフトウェア エンジニアリングやテクノロジー企業に与える影響は否定でき...