現在、大規模言語モデル (LLM) は、自然言語処理 (NLP) の分野で変化の波を引き起こしています。 LLM は強力な創発機能を備えており、複雑な言語理解タスク、生成タスク、さらには推論タスクでも優れたパフォーマンスを発揮することがわかります。これにより、人々は機械学習の別のサブフィールドであるコンピューター ビジョン (CV) における LLM の可能性をさらに探求するようになりました。 LLM の優れた才能の 1 つは、文脈的学習能力です。コンテキスト学習は LLM のパラメータを更新しませんが、さまざまな NLP タスクで驚くべき結果を示しています。では、GPT は文脈学習を通じて視覚タスクを解決できるのでしょうか? Google とカーネギーメロン大学 (CMU) の研究者による最近の論文では、画像 (またはその他の非言語的様相) を LLM が理解できる言語に翻訳できる限り、これは可能であるようだと示唆しています。 写真 論文アドレス: https://arxiv.org/abs/2306.17842 この論文では、文脈学習を通じて視覚タスクを解決する PaLM または GPT の能力を明らかにし、新しい方法 SPAE (Semantic Pyramid AutoEncoder) を提案します。この新しいアプローチにより、LLM はパラメータを更新せずに画像生成タスクを実行できるようになります。これは、コンテキスト学習を使用して LLM が画像コンテンツを生成できるようにする最初の成功したアプローチでもあります。 まず、コンテキスト学習を通じて画像コンテンツを生成する LLM の実験結果を見てみましょう。 たとえば、与えられたコンテキストでは、50 枚の手書き画像を提供することで、この論文では PaLM 2 に、出力として数字画像を生成することを必要とする複雑なクエリに答えるように求めています。 写真 また、画像コンテキスト入力を与えると、リアルな現実世界の画像を生成することもできます。 写真 PaLM 2 は画像の生成に加えて、コンテキスト学習を通じて画像の説明も実行できます。 画像関連の質問に対する視覚的な質問回答もあります。 写真 生成されたビデオのノイズを除去することもできます。 写真 方法の概要実際、画像を LLM が理解できる言語に変換することは、Visual Transformer (ViT) 論文で研究されてきた問題です。 Google と CMU によるこの論文では、実際の単語を使用して画像を表現するという次のレベルに進んでいます。 このアプローチは、画像の意味と詳細を捉えた言葉でいっぱいの塔を建てるようなものです。このテキストが豊富な表現により、画像の説明を簡単に生成でき、LLM は画像に関する質問に答えたり、画像のピクセルを再構築したりできるようになります。 具体的には、この研究では、トレーニング済みのエンコーダーと CLIP モデルを使用して画像をトークン空間に変換し、次に LLM を使用して適切な語彙トークンを生成し、最後にトレーニング済みのデコーダーを使用してこれらのトークンをピクセル空間に戻すことを提案しています。この巧妙なプロセスにより、画像が LLM が理解できる言語に変換され、視覚タスクで LLM の生成力を活用できるようになります。 実験と結果この研究では、SPAE を SOTA 法の Frozen および LQAE と実験的に比較し、結果を以下の表 1 に示します。 SPAEGPT は、トークンの 2% のみを使用しながら、すべてのタスクで LQAE を上回ります。 写真 全体的に、mini-ImageNet ベンチマークのテストでは、SPAE メソッドにより、以前の SOTA メソッドよりもパフォーマンスが 25% 向上することが示されています。 写真 SPAE設計法の有効性を検証するために、本研究ではアブレーション実験を行った。実験結果を表4と図10に示す。 写真 写真 興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。 |
<<: 中国科学院とアリババが開発したFF3Dでは、カスタムスタイルの3Dポートレートを作成するのにわずか3分しかかかりません。
>>: ビッグモデルの時代、周志華教授の「ラーニングウェア」の考え方を分析:小さなモデルでも大きなことができる
最近、教育部は「2019年度一般高等教育機関の学部専攻登録・認可結果発表通知」を出し、設置が認可され...
テンセントAIラボ機械学習センターは本日、世界初の自動ディープラーニングモデル圧縮フレームワーク「P...
人工知能は、日常的なタスクを自動化することで生産性を向上させる機会を提供します。この記事では、人工知...
翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟AutoML の紹介 自動機械学習 (AutoML) は、...
AlphaGo の人間と機械の戦いから、自動運転車のロードトリップ、AI 合成アンカーの採用まで、...
[51CTO.comからのオリジナル記事] Tmall Genie X1、Xiaomi AIスピーカ...
執筆者:ユン・チャオ「今日は、Stack Overflow にとってエキサイティングな新時代の始まり...
Google LLC のクラウド コンピューティング部門は本日、オープンソースの人工知能モデルを共有...
高速ロボット動作の分野では、速度と安全性の両立が常に大きな課題となっています。しかし今、カーネギーメ...
YouTube は 11 月 16 日に、ユーザーがテキストを入力したりメロディーをハミングしたりす...
ボストンのロボット犬はしばらく前から販売されているが、価格は少々魅力的ではない。インターネット上には...