大規模言語モデルの視覚的才能: GPTは文脈学習を通じて視覚的タスクも解決できる

大規模言語モデルの視覚的才能: GPTは文脈学習を通じて視覚的タスクも解決できる

現在、大規模言語モデル (LLM) は、自然言語処理 (NLP) の分野で変化の波を引き起こしています。 LLM は強力な創発機能を備えており、複雑な言語理解タスク、生成タスク、さらには推論タスクでも優れたパフォーマンスを発揮することがわかります。これにより、人々は機械学習の別のサブフィールドであるコンピューター ビジョン (CV) における LLM の可能性をさらに探求するようになりました。

LLM の優れた才能の 1 つは、文脈的学習能力です。コンテキスト学習は LLM のパラメータを更新しませんが、さまざまな NLP タスクで驚くべき結果を示しています。では、GPT は文脈学習を通じて視覚タスクを解決できるのでしょうか?

Google とカーネギーメロン大学 (CMU) の研究者による最近の論文では、画像 (またはその他の非言語的様相) を LLM が理解できる言語に翻訳できる限り、これは可能であるようだと示唆しています。

写真

論文アドレス: https://arxiv.org/abs/2306.17842

この論文では、文脈学習を通じて視覚タスクを解決する PaLM または GPT の能力を明らかにし、新しい方法 SPAE (Semantic Pyramid AutoEncoder) を提案します。この新しいアプローチにより、LLM はパラメータを更新せずに画像生成タスクを実行できるようになります。これは、コンテキスト学習を使用して LLM が画像コンテンツを生成できるようにする最初の成功したアプローチでもあります。

まず、コンテキスト学習を通じて画像コンテンツを生成する LLM の実験結果を見てみましょう。

たとえば、与えられたコンテキストでは、50 枚の手書き画像を提供することで、この論文では PaLM 2 に、出力として数字画像を生成することを必要とする複雑なクエリに答えるように求めています。

写真

また、画像コンテキスト入力を与えると、リアルな現実世界の画像を生成することもできます。

写真

PaLM 2 は画像の生成に加えて、コンテキスト学習を通じて画像の説明も実行できます。

画像関連の質問に対する視覚的な質問回答もあります。

写真

生成されたビデオのノイズを除去することもできます。

写真

方法の概要

実際、画像を LLM が理解できる言語に変換することは、Visual Transformer (ViT) 論文で研究されてきた問題です。 Google と CMU によるこの論文では、実際の単語を使用して画像を表現するという次のレベルに進んでいます。

このアプローチは、画像の意味と詳細を捉えた言葉でいっぱいの塔を建てるようなものです。このテキストが豊富な表現により、画像の説明を簡単に生成でき、LLM は画像に関する質問に答えたり、画像のピクセルを再構築したりできるようになります。

具体的には、この研究では、トレーニング済みのエンコーダーと CLIP モデルを使用して画像をトークン空間に変換し、次に LLM を使用して適切な語彙トークンを生成し、最後にトレーニング済みのデコーダーを使用してこれらのトークンをピクセル空間に戻すことを提案しています。この巧妙なプロセスにより、画像が LLM が理解できる言語に変換され、視覚タスクで LLM の生成力を活用できるようになります。

実験と結果

この研究では、SPAE を SOTA 法の Frozen および LQAE と実験的に比較し、結果を以下の表 1 に示します。 SPAEGPT は、トークンの 2% のみを使用しながら、すべてのタスクで LQAE を上回ります。

写真

全体的に、mini-ImageNet ベンチマークのテストでは、SPAE メソッドにより、以前の SOTA メソッドよりもパフォーマンスが 25% 向上することが示されています。

写真

SPAE設計法の有効性を検証するために、本研究ではアブレーション実験を行った。実験結果を表4と図10に示す。

写真

写真

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:  中国科学院とアリババが開発したFF3Dでは、カスタムスタイルの3Dポートレートを作成するのにわずか3分しかかかりません。

>>:  ビッグモデルの時代、周志華教授の「ラーニングウェア」の考え方を分析:小さなモデルでも大きなことができる

ブログ    
ブログ    
ブログ    

推薦する

公正な「データアクセス」の新秩序の構築 AIが都市統治に根付く

最近では、AI テクノロジーがさまざまな業界に大きな影響を与えていることがニュースで頻繁に紹介されて...

仕事に同行することから出勤やフィットネスの管理まで、AI はますます多くのことを処理します。

過去2年間、人工知能によって人事部門が消滅するという議論をよく耳にしてきました。しかし、実際には誰も...

...

ナレッジグラフをビッグモデルの仲間にしよう

大規模言語モデル (LLM) は、非常に流暢で一貫性のあるテキストを短時間で生成できるため、AI 会...

人工知能とビッグデータを開発する際に注意すべき12のポイント

人工知能は近年の科学技術発展の重要な方向です。ビッグデータの時代において、データの収集、マイニング、...

Google の自動運転車は「先​​天的な欠陥」があるが、その商品化は「中止」の運命を免れるだろうか?

[[248486]]グーグルの自動運転車開発会社ウェイモはすでに試験的な移動サービスの一部を有料化...

AI が「インターネット セレブ」メタバースと出会うと、どのような変化が起こるでしょうか?

2021年に世界を爆発的に盛り上げたメタバースは、2022年に入っても冷める気配がなく、今も多くの...

今日のAIの優れた使用例

企業は AI パイロットを実施し、AI を本番環境に移行しています。大手組織はここに賭けており、すで...

人工知能は視覚障害者にさらなる利便性をもたらす

人工知能は私たちの旅行や生活を変えただけでなく、いくつかの専門分野にも影響を与えました。例えば、次に...

...

手動設計は不要、検索損失関数をゼロから作成

[[390709]]近年、自動機械学習(AutoML)は、モデル構造やトレーニング戦略など、多くのデ...

機械学習は電力業界に大きな変化をもたらすだろう

エネルギーの状況は劇的な変化を迎えようとしており、今は機械学習と電力網を組み合わせる絶好の機会です。...

人工知能が火星の新しいクレーターの発見に貢献

人工知能ツールによって特定された、火星の最新のクレーター群の高解像度画像。画像出典: Space.c...

2018年、ブロックチェーンは監査人の仕事を破壊するでしょうか?

電卓が普及した後、そろばんの使い方しか知らなかった会計士は失業した。ゴールドマン・サックスは最盛期に...