GPT-4 の RAW 画像はまだリリースされていないのですか? CMUの中国人医師の新作、大型モデルGILLは画像生成や検索が可能で誰でも遊べる

GPT-4 の RAW 画像はまだリリースされていないのですか? CMUの中国人医師の新作、大型モデルGILLは画像生成や検索が可能で誰でも遊べる

GPT-4 のマルチモーダル機能については、もう少し待たなければならないかもしれません。

最近、CMU の研究者らは新しいマルチモーダルモデル GILL を提案しました。

論文アドレス: https://arxiv.org/pdf/2305.17216.pdf

テキストや画像をプロンプトとして使用し、マルチモーダルな会話を完了できます。具体的には、テキストの生成、画像の取得、新しい画像の生成が可能です。

GILL は、事前に指定されたデータセットから画像を取得し、推論中に画像を取得するか生成するかを決定することもできます。

埋め込み空間間のマッピングを通じて、CMU チームが凍結された大規模モデルと事前トレーニング済みの Wensheng グラフ モデルを組み合わせたことは注目に値します。

このようにして、GILL は幅広いアプリケーションを実現し、複数のテキストから画像へのタスクにおいて Stable Diffusion などの生成モデルよりも優れたパフォーマンスを発揮します。

まずはデモを見てみましょう。

デモ

GILL は、LLM の事前トレーニングおよびフリーズ機能をさまざまなタスクに一般化できます。具体的には以下が含まれます:

https://huggingface.co/spaces/jykoh/gill

マルチモーダル対話生成

GILL に会話のようなテキストを生成するよう指示することができ、画像の検索、画像の生成、さらにはマルチモーダルな会話も実行できます。

例えば、ラーメンをもっと栄養価の高いものにするにはどうしたらいいかと尋ねることができます。 GILLは野菜を加えることについてアドバイスをくれます。

タトゥーを入れたい。 GILL は、要件を満たすパターンを即座に生成します。

これらのケーキを市場でどのように宣伝すればよいでしょうか? GILL 氏は、店名とカップケーキの写真が入ったシンプルな看板を提案しています。

ビジュアルストーリーから画像を生成する

さらに、GILL はインターリーブされた画像とテキスト入力に基づいて、より関連性の高い画像を生成することもできます。

マルチモーダル大型モデル GILL

GILL の正式名称は「Generating Images with Large Language Models」で、大規模言語モデルを使用して画像を生成することを意味します。

任意のインターリーブされた画像とテキストの入力を処理して、テキストを生成したり、画像を取得したり、新しい画像を生成したりできます。

GILL モデル アーキテクチャの概要。画像の処理を学習するために記述損失でトレーニング(左)、画像の検索と画像の生成を学習するために画像検索損失と画像生成損失でトレーニング(右)

この研究では、2 つのモデルがまったく異なるテキスト エンコーダーを使用しているにもかかわらず、凍結プレーン テキスト LLM の出力埋め込み空間を、凍結テキスト画像生成モデル、つまり Stable Diffusion の埋め込み空間に効果的にマッピングできることが示されています。

インターリーブされた画像とテキストのトレーニングデータを必要とする他の方法と比較して、研究者は画像と説明のペアの少数のパラメータを微調整することによってこれを実現します。

このアプローチは計算効率が高く、トレーニング中に画像生成モデルを実行する必要がありません。

GILL の推論の時間経過。このモデルは画像とテキストの入力を受け取り、画像埋め込みとインターリーブされたテキストを生成します。特定のトークンセットを取得するか生成するかを決定した後、適切な画像出力を返します。

推論中、モデルは任意のインターリーブされた画像とテキストの入力を受け入れ、画像埋め込みとインターリーブされたテキストを生成します。特定のトークンセットを取得するか生成するかを決定した後、適切な画像出力(取得または生成)を返します。

推論中に、モデルは任意のインターリーブされた画像とテキストの入力を受け取り、インターリーブされた画像に埋め込まれたテキストを生成します。特定のトークンのセットを取得するか生成するかを決定した後、対応するイメージ出力(取得または生成)を返します。

実験結果

コンテキスト画像生成

新しい画像生成のベースライン手法に対するモデルの機能をテストするために、研究者らは VIST および VisDial データセットで実験を実施しました。

これらのデータセットは、マルチモーダルテキストおよび画像コンテキストでの画像検索をベンチマークするために以前の研究で使用されたものと同じです。

GILL モデルは、マルチモーダル情報を組み合わせて関連画像とテキスト出力を生成し、画像検索に限定されたベースライン モデルよりも優れたパフォーマンスを発揮します。

評価指標

評価は、生成モデルが複雑な言語記述を処理する能力に焦点を当てています。そこで研究者らは、生成された画像の内容の関連性を測定する指標を計算した。

ここでは、モデルを評価するための 2 つの指標があります。

1. CLIP 類似度: CLIP ViT-L 画像エンコーダーを使用して、生成された画像と対応する実際の画像の結合表現を生成し、それらのコサイン類似度を導出します。スコアが高いほど、生成された画像が実際の画像に似ていることを意味します。

2. 知覚パッチ類似性の学習 (LPIPS): LPIPS は画像パッチ間の距離を評価します。実際の画像と生成された画像間の LPIPS を測定します。値が低いほど、2 つの画像が知覚空間内でより近いことを意味し、値が高いほど、2 つの画像が類似していないことを意味します。

ビジュアルストーリーから生成

VIST は、ストーリーを構成する 5 つの画像とテキストのシーケンスの例を含む、連続的な視覚および言語タスク用のデータセットです。

GILL とテキストから画像への生成ベースラインを比較した評価結果が表示されます。

両方のモデルにストーリーの説明を入力すると、パフォーマンスは同等となり、SD はより優れた CLIP 類似性スコアを達成し、両方のモデルは同様の LPIPS を達成しました。

ただし、5 つのストーリーの説明すべてが入力として提供されると、GILL は SD よりも優れ、CLIP 類似度は 0.598 から 0.612 に、LPIPS は 0.704 から 0.6 に向上します。

興味深いことに、完全なマルチモーダルコンテキストがさらに提供されると、GILL は大幅に改善され、CLIP 類似度 0.641、LPIPS 0.3 を達成しました。

ビジュアルダイアログから生成

研究者らは、VisDial データセットでもモデルをテストしました。

VIST と同様に、モデルは記述された画像を正確に合成する能力に基づいて評価され、入力として増加する量の質問応答対話コンテキストが提供されます。

評価結果によると、入力長が短い場合、SD は GILL よりも優れていることがわかります。

しかし、入力コンテキストが増えると、GILL は徐々に改善され、より実際の画像に近い画像を合成できるようになります。

完全な 10 ターンのダイアログが提供されると、GILL のパフォーマンスは SD よりも大幅に向上し、CLIP 類似度 (0.622-0.645) と LPIPS (0.723-0.714) の両方が向上します。

これらの結果は、長い会話のようなテキスト入力を処理する際の GILL の有効性をさらに強調しています。

研究者らは GILLMapper モジュールも導入し、モデルが安定拡散画像生成バックボーンに効率的にマッピングできるようにし、PartiPrompts の多くの例で SD を上回るか同等のパフォーマンスを発揮しました。

GILLMapper モデル アーキテクチャは、隠された [IMG] 表現と学習されたクエリ埋め込みベクトルのシーケンスに基づいています。

制限

GILL は多くの魅力的な機能を導入していますが、いくつかの制限がある初期の研究プロトタイプです。

- GILL の多くの機能は LLM マスター アーキテクチャに依存しています。そのため、LLM に典型的な多くの問題も引き継いでいます。

- GILL は、プロンプトが表示されたときや、会話に役立つときに必ずしも画像を生成するわけではありません。

- GILL の制限は、視覚処理が限られていることです。現在、研究では各入力画像を表すために 4 つの視覚ベクトルのみを使用しています (計算上の制限のため)。これでは、下流のタスクに必要なすべての関連視覚情報を取得できない可能性があります。

- GILL は、生成されるコンテンツが間違っていたり、入力データと関係がなかったりする潜在的な幻覚など、LLM の予期しない動作を継承します。また、繰り返しのテキストが生成される場合もあり、必ずしも一貫した会話テキストが生成されるわけではありません。

著者について

ジン・ユー・コー

Jing Yu Koh は、CMU の機械学習部門の 2 年目の博士課程の学生で、Daniel Fried と Ruslan Salakhutdinov が指導教員です。

現在、彼の主な研究分野は基礎言語理解です。

ダニエル・フリード氏とルスラン・サラクティノフ氏からアドバイスを受けました。私は視覚と言語の問題という文脈で、基本的な言語理解に取り組んでいます。

それ以前は、Google Research の研究エンジニアとして、視覚と言語の問題や生成モデルに取り組んでいました。

<<:  AIが70年間で急成長した理由が明らかに!タイム誌の4枚の写真がアルゴリズムの進化の謎を明らかにする

>>:  涼宮ハルヒや李雲龍など32人のキャラクターをプレイ可能。このチャットボットはストーリーを非常によく理解しており、コードは商業的に使用できます。

ブログ    

推薦する

元GitHub CEO:AIプログラミングアシスタントCopilotは価格よりも安く、損失はない

10月13日、元マイクロソフト幹部で元GitHub CEOのナット・フリードマン氏は、10月12日に...

Microsoft が NaturalSpeech2 音声合成モデルを発表: 音声再構成は「より正確」になり、「行き詰まる」こともなくなる

マイクロソフトは7月27日、NaturalSpeech2という音声モデルを発表しました。このモデルは...

...

なぜ失敗したかご存知ですか?機械学習プロジェクトの 87% がこのように失敗します…

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

私の国のロボット市場は活況を呈しているが、人材と技術的な問題はまだ解決する必要がある。

「スマート+」時代の到来とともに、人工知能、5G、モノのインターネット、ビッグデータなどの技術が徐...

人工知能はドローンの将来にどのような影響を与えるのでしょうか?

人工知能の破壊的な可能性を解き放ち、それがドローンの未来をどのように変えるのかを探ります。常に進化を...

AI が「もや」を取り除くのに役立ちます: うつ病の治療における機械学習の応用

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

ベンチャー投資における機械学習の活用方法

過去 20 年間にわたり、Veronica Wu は多くの大きな技術的変化の始まりを目撃してきました...

...

ChatGPT を使用すると、わずか 3 時間で高品質の論文を書くことができます。

1. 論文のテーマと研究の方向性を決定するディスカッションと詳細化: ChatGPT で論文のトピ...

...

自動化とエンタープライズAIは2021年に大きく成長する

最近のガートナーの調査によると、労働力の自動化とエンタープライズ人工知能が 2021 年の主要なトレ...