GPT-4 の RAW 画像はまだリリースされていないのですか? CMUの中国人医師の新作、大型モデルGILLは画像生成や検索が可能で誰でも遊べる

GPT-4 のマルチモーダル機能については、もう少し待たなければならないかもしれません。

最近、CMU の研究者らは新しいマルチモーダルモデル GILL を提案しました。

論文アドレス: https://arxiv.org/pdf/2305.17216.pdf

テキストや画像をプロンプトとして使用し、マルチモーダルな会話を完了できます。具体的には、テキストの生成、画像の取得、新しい画像の生成が可能です。

GILL は、事前に指定されたデータセットから画像を取得し、推論中に画像を取得するか生成するかを決定することもできます。

埋め込み空間間のマッピングを通じて、CMU チームが凍結された大規模モデルと事前トレーニング済みの Wensheng グラフモデルを組み合わせたことは注目に値します。

このようにして、GILL は幅広いアプリケーションを実現し、複数のテキストから画像へのタスクにおいて Stable Diffusion などの生成モデルよりも優れたパフォーマンスを発揮します。

まずはデモを見てみましょう。

デモ

GILL は、LLM の事前トレーニングおよびフリーズ機能をさまざまなタスクに一般化できます。具体的には以下が含まれます:

https://huggingface.co/spaces/jykoh/gill

マルチモーダル対話生成

GILL に会話のようなテキストを生成するよう指示することができ、画像の検索、画像の生成、さらにはマルチモーダルな会話も実行できます。

例えば、ラーメンをもっと栄養価の高いものにするにはどうしたらいいかと尋ねることができます。 GILLは野菜を加えることについてアドバイスをくれます。

タトゥーを入れたい。 GILL は、要件を満たすパターンを即座に生成します。

これらのケーキを市場でどのように宣伝すればよいでしょうか? GILL 氏は、店名とカップケーキの写真が入ったシンプルな看板を提案しています。

ビジュアルストーリーから画像を生成する

さらに、GILL はインターリーブされた画像とテキスト入力に基づいて、より関連性の高い画像を生成することもできます。

マルチモーダル大型モデル GILL

GILL の正式名称は「Generating Images with Large Language Models」で、大規模言語モデルを使用して画像を生成することを意味します。

任意のインターリーブされた画像とテキストの入力を処理して、テキストを生成したり、画像を取得したり、新しい画像を生成したりできます。

GILL モデルアーキテクチャの概要。画像の処理を学習するために記述損失でトレーニング（左）、画像の検索と画像の生成を学習するために画像検索損失と画像生成損失でトレーニング（右）

この研究では、2 つのモデルがまったく異なるテキストエンコーダーを使用しているにもかかわらず、凍結プレーンテキスト LLM の出力埋め込み空間を、凍結テキスト画像生成モデル、つまり Stable Diffusion の埋め込み空間に効果的にマッピングできることが示されています。

インターリーブされた画像とテキストのトレーニングデータを必要とする他の方法と比較して、研究者は画像と説明のペアの少数のパラメータを微調整することによってこれを実現します。

このアプローチは計算効率が高く、トレーニング中に画像生成モデルを実行する必要がありません。

GILL の推論の時間経過。このモデルは画像とテキストの入力を受け取り、画像埋め込みとインターリーブされたテキストを生成します。特定のトークンセットを取得するか生成するかを決定した後、適切な画像出力を返します。

推論中、モデルは任意のインターリーブされた画像とテキストの入力を受け入れ、画像埋め込みとインターリーブされたテキストを生成します。特定のトークンセットを取得するか生成するかを決定した後、適切な画像出力（取得または生成）を返します。

推論中に、モデルは任意のインターリーブされた画像とテキストの入力を受け取り、インターリーブされた画像に埋め込まれたテキストを生成します。特定のトークンのセットを取得するか生成するかを決定した後、対応するイメージ出力（取得または生成）を返します。

実験結果

コンテキスト画像生成

新しい画像生成のベースライン手法に対するモデルの機能をテストするために、研究者らは VIST および VisDial データセットで実験を実施しました。

これらのデータセットは、マルチモーダルテキストおよび画像コンテキストでの画像検索をベンチマークするために以前の研究で使用されたものと同じです。

GILL モデルは、マルチモーダル情報を組み合わせて関連画像とテキスト出力を生成し、画像検索に限定されたベースラインモデルよりも優れたパフォーマンスを発揮します。

評価指標

評価は、生成モデルが複雑な言語記述を処理する能力に焦点を当てています。そこで研究者らは、生成された画像の内容の関連性を測定する指標を計算した。

ここでは、モデルを評価するための 2 つの指標があります。

1. CLIP 類似度: CLIP ViT-L 画像エンコーダーを使用して、生成された画像と対応する実際の画像の結合表現を生成し、それらのコサイン類似度を導出します。スコアが高いほど、生成された画像が実際の画像に似ていることを意味します。

2. 知覚パッチ類似性の学習 (LPIPS): LPIPS は画像パッチ間の距離を評価します。実際の画像と生成された画像間の LPIPS を測定します。値が低いほど、2 つの画像が知覚空間内でより近いことを意味し、値が高いほど、2 つの画像が類似していないことを意味します。

ビジュアルストーリーから生成

VIST は、ストーリーを構成する 5 つの画像とテキストのシーケンスの例を含む、連続的な視覚および言語タスク用のデータセットです。

GILL とテキストから画像への生成ベースラインを比較した評価結果が表示されます。

両方のモデルにストーリーの説明を入力すると、パフォーマンスは同等となり、SD はより優れた CLIP 類似性スコアを達成し、両方のモデルは同様の LPIPS を達成しました。

ただし、5 つのストーリーの説明すべてが入力として提供されると、GILL は SD よりも優れ、CLIP 類似度は 0.598 から 0.612 に、LPIPS は 0.704 から 0.6 に向上します。

興味深いことに、完全なマルチモーダルコンテキストがさらに提供されると、GILL は大幅に改善され、CLIP 類似度 0.641、LPIPS 0.3 を達成しました。

ビジュアルダイアログから生成

研究者らは、VisDial データセットでもモデルをテストしました。

VIST と同様に、モデルは記述された画像を正確に合成する能力に基づいて評価され、入力として増加する量の質問応答対話コンテキストが提供されます。

評価結果によると、入力長が短い場合、SD は GILL よりも優れていることがわかります。

しかし、入力コンテキストが増えると、GILL は徐々に改善され、より実際の画像に近い画像を合成できるようになります。

完全な 10 ターンのダイアログが提供されると、GILL のパフォーマンスは SD よりも大幅に向上し、CLIP 類似度 (0.622-0.645) と LPIPS (0.723-0.714) の両方が向上します。

これらの結果は、長い会話のようなテキスト入力を処理する際の GILL の有効性をさらに強調しています。

研究者らは GILLMapper モジュールも導入し、モデルが安定拡散画像生成バックボーンに効率的にマッピングできるようにし、PartiPrompts の多くの例で SD を上回るか同等のパフォーマンスを発揮しました。

GILLMapper モデルアーキテクチャは、隠された [IMG] 表現と学習されたクエリ埋め込みベクトルのシーケンスに基づいています。

制限

GILL は多くの魅力的な機能を導入していますが、いくつかの制限がある初期の研究プロトタイプです。

- GILL の多くの機能は LLM マスターアーキテクチャに依存しています。そのため、LLM に典型的な多くの問題も引き継いでいます。

- GILL は、プロンプトが表示されたときや、会話に役立つときに必ずしも画像を生成するわけではありません。

- GILL の制限は、視覚処理が限られていることです。現在、研究では各入力画像を表すために 4 つの視覚ベクトルのみを使用しています (計算上の制限のため)。これでは、下流のタスクに必要なすべての関連視覚情報を取得できない可能性があります。

- GILL は、生成されるコンテンツが間違っていたり、入力データと関係がなかったりする潜在的な幻覚など、LLM の予期しない動作を継承します。また、繰り返しのテキストが生成される場合もあり、必ずしも一貫した会話テキストが生成されるわけではありません。

著者について

ジン・ユー・コー

Jing Yu Koh は、CMU の機械学習部門の 2 年目の博士課程の学生で、Daniel Fried と Ruslan Salakhutdinov が指導教員です。

現在、彼の主な研究分野は基礎言語理解です。

ダニエル・フリード氏とルスラン・サラクティノフ氏からアドバイスを受けました。私は視覚と言語の問題という文脈で、基本的な言語理解に取り組んでいます。

それ以前は、Google Research の研究エンジニアとして、視覚と言語の問題や生成モデルに取り組んでいました。

<<: AIが70年間で急成長した理由が明らかに！タイム誌の4枚の写真がアルゴリズムの進化の謎を明らかにする

>>: 涼宮ハルヒや李雲龍など32人のキャラクターをプレイ可能。このチャットボットはストーリーを非常によく理解しており、コードは商業的に使用できます。

ブログ

GPT-4 の RAW 画像はまだリリースされていないのですか? CMUの中国人医師の新作、大型モデルGILLは画像生成や検索が可能で誰でも遊べる

デモ

マルチモーダル大型モデル GILL

実験結果

評価指標

著者について

詳細 | ビッグデータアルゴリズムアプリケーションのテストの開発

インテリジェント交通の時代に踏み出すには、これら 3 つのことをうまく行う必要があります。

探索的データ分析: 人工知能と機械学習の有効性を判断するための第一歩

Pythonで検索アルゴリズムを実装する方法を教えます

7 つの重要な要素: 優れた機械学習アルゴリズムを選択するには?

ロボット導入の「秘密」：継続的な学習、知識の伝達、自律的な参加

AI as a Serviceが不可欠な理由

人工知能は匿名のチェスプレイヤーの身元を確認でき、プライバシーの脅威となる

推薦する

ChatGPT「コードインタープリター」が正式リリースされました！ 30秒で写真を動画に変え、口を動かしてショーを作りましょう

人工知能、ディープラーニング、マシンビジョン、理解すべき概念

畳み込みニューラルネットワークは「グラフ」構造化データを処理できないのですか?この記事でその答えが分かります

サイバーセキュリティの専門家は、悪意のあるAIが広がり始めると述べている

将来の顔認識技術の最大の問題は、それがほぼ間違いのないものであることだ

中学校の知識を使って機械学習が何をしているのかを理解する方法

2015年に中国の電子商取引消費者に最も優しい製品が発表されました：ビッグデータアルゴリズム+専門家のコメント=優れた中国のデザイン

マイクロソフト、AIツール「コパイロット」があなたの仕事を奪うことはないと改めて主張

COVID-19患者のどの症状が悪化するかを予測する新しいアルゴリズム

GPT-4 の推論はとんでもない！大学の数学、物理、化学の合計得点は半分にも満たず、推理問題21種類すべて不合格。マーカス「AGIはまだ遠い」

ニューラルネットワークの問題を解決するための新しいアイデア: OpenAI は線形ネットワークを使用して非線形問題を計算します