GPT-4 の RAW 画像はまだリリースされていないのですか? CMUの中国人医師の新作、大型モデルGILLは画像生成や検索が可能で誰でも遊べる

GPT-4 の RAW 画像はまだリリースされていないのですか? CMUの中国人医師の新作、大型モデルGILLは画像生成や検索が可能で誰でも遊べる

GPT-4 のマルチモーダル機能については、もう少し待たなければならないかもしれません。

最近、CMU の研究者らは新しいマルチモーダルモデル GILL を提案しました。

論文アドレス: https://arxiv.org/pdf/2305.17216.pdf

テキストや画像をプロンプトとして使用し、マルチモーダルな会話を完了できます。具体的には、テキストの生成、画像の取得、新しい画像の生成が可能です。

GILL は、事前に指定されたデータセットから画像を取得し、推論中に画像を取得するか生成するかを決定することもできます。

埋め込み空間間のマッピングを通じて、CMU チームが凍結された大規模モデルと事前トレーニング済みの Wensheng グラフ モデルを組み合わせたことは注目に値します。

このようにして、GILL は幅広いアプリケーションを実現し、複数のテキストから画像へのタスクにおいて Stable Diffusion などの生成モデルよりも優れたパフォーマンスを発揮します。

まずはデモを見てみましょう。

デモ

GILL は、LLM の事前トレーニングおよびフリーズ機能をさまざまなタスクに一般化できます。具体的には以下が含まれます:

https://huggingface.co/spaces/jykoh/gill

マルチモーダル対話生成

GILL に会話のようなテキストを生成するよう指示することができ、画像の検索、画像の生成、さらにはマルチモーダルな会話も実行できます。

例えば、ラーメンをもっと栄養価の高いものにするにはどうしたらいいかと尋ねることができます。 GILLは野菜を加えることについてアドバイスをくれます。

タトゥーを入れたい。 GILL は、要件を満たすパターンを即座に生成します。

これらのケーキを市場でどのように宣伝すればよいでしょうか? GILL 氏は、店名とカップケーキの写真が入ったシンプルな看板を提案しています。

ビジュアルストーリーから画像を生成する

さらに、GILL はインターリーブされた画像とテキスト入力に基づいて、より関連性の高い画像を生成することもできます。

マルチモーダル大型モデル GILL

GILL の正式名称は「Generating Images with Large Language Models」で、大規模言語モデルを使用して画像を生成することを意味します。

任意のインターリーブされた画像とテキストの入力を処理して、テキストを生成したり、画像を取得したり、新しい画像を生成したりできます。

GILL モデル アーキテクチャの概要。画像の処理を学習するために記述損失でトレーニング(左)、画像の検索と画像の生成を学習するために画像検索損失と画像生成損失でトレーニング(右)

この研究では、2 つのモデルがまったく異なるテキスト エンコーダーを使用しているにもかかわらず、凍結プレーン テキスト LLM の出力埋め込み空間を、凍結テキスト画像生成モデル、つまり Stable Diffusion の埋め込み空間に効果的にマッピングできることが示されています。

インターリーブされた画像とテキストのトレーニングデータを必要とする他の方法と比較して、研究者は画像と説明のペアの少数のパラメータを微調整することによってこれを実現します。

このアプローチは計算効率が高く、トレーニング中に画像生成モデルを実行する必要がありません。

GILL の推論の時間経過。このモデルは画像とテキストの入力を受け取り、画像埋め込みとインターリーブされたテキストを生成します。特定のトークンセットを取得するか生成するかを決定した後、適切な画像出力を返します。

推論中、モデルは任意のインターリーブされた画像とテキストの入力を受け入れ、画像埋め込みとインターリーブされたテキストを生成します。特定のトークンセットを取得するか生成するかを決定した後、適切な画像出力(取得または生成)を返します。

推論中に、モデルは任意のインターリーブされた画像とテキストの入力を受け取り、インターリーブされた画像に埋め込まれたテキストを生成します。特定のトークンのセットを取得するか生成するかを決定した後、対応するイメージ出力(取得または生成)を返します。

実験結果

コンテキスト画像生成

新しい画像生成のベースライン手法に対するモデルの機能をテストするために、研究者らは VIST および VisDial データセットで実験を実施しました。

これらのデータセットは、マルチモーダルテキストおよび画像コンテキストでの画像検索をベンチマークするために以前の研究で使用されたものと同じです。

GILL モデルは、マルチモーダル情報を組み合わせて関連画像とテキスト出力を生成し、画像検索に限定されたベースライン モデルよりも優れたパフォーマンスを発揮します。

評価指標

評価は、生成モデルが複雑な言語記述を処理する能力に焦点を当てています。そこで研究者らは、生成された画像の内容の関連性を測定する指標を計算した。

ここでは、モデルを評価するための 2 つの指標があります。

1. CLIP 類似度: CLIP ViT-L 画像エンコーダーを使用して、生成された画像と対応する実際の画像の結合表現を生成し、それらのコサイン類似度を導出します。スコアが高いほど、生成された画像が実際の画像に似ていることを意味します。

2. 知覚パッチ類似性の学習 (LPIPS): LPIPS は画像パッチ間の距離を評価します。実際の画像と生成された画像間の LPIPS を測定します。値が低いほど、2 つの画像が知覚空間内でより近いことを意味し、値が高いほど、2 つの画像が類似していないことを意味します。

ビジュアルストーリーから生成

VIST は、ストーリーを構成する 5 つの画像とテキストのシーケンスの例を含む、連続的な視覚および言語タスク用のデータセットです。

GILL とテキストから画像への生成ベースラインを比較した評価結果が表示されます。

両方のモデルにストーリーの説明を入力すると、パフォーマンスは同等となり、SD はより優れた CLIP 類似性スコアを達成し、両方のモデルは同様の LPIPS を達成しました。

ただし、5 つのストーリーの説明すべてが入力として提供されると、GILL は SD よりも優れ、CLIP 類似度は 0.598 から 0.612 に、LPIPS は 0.704 から 0.6 に向上します。

興味深いことに、完全なマルチモーダルコンテキストがさらに提供されると、GILL は大幅に改善され、CLIP 類似度 0.641、LPIPS 0.3 を達成しました。

ビジュアルダイアログから生成

研究者らは、VisDial データセットでもモデルをテストしました。

VIST と同様に、モデルは記述された画像を正確に合成する能力に基づいて評価され、入力として増加する量の質問応答対話コンテキストが提供されます。

評価結果によると、入力長が短い場合、SD は GILL よりも優れていることがわかります。

しかし、入力コンテキストが増えると、GILL は徐々に改善され、より実際の画像に近い画像を合成できるようになります。

完全な 10 ターンのダイアログが提供されると、GILL のパフォーマンスは SD よりも大幅に向上し、CLIP 類似度 (0.622-0.645) と LPIPS (0.723-0.714) の両方が向上します。

これらの結果は、長い会話のようなテキスト入力を処理する際の GILL の有効性をさらに強調しています。

研究者らは GILLMapper モジュールも導入し、モデルが安定拡散画像生成バックボーンに効率的にマッピングできるようにし、PartiPrompts の多くの例で SD を上回るか同等のパフォーマンスを発揮しました。

GILLMapper モデル アーキテクチャは、隠された [IMG] 表現と学習されたクエリ埋め込みベクトルのシーケンスに基づいています。

制限

GILL は多くの魅力的な機能を導入していますが、いくつかの制限がある初期の研究プロトタイプです。

- GILL の多くの機能は LLM マスター アーキテクチャに依存しています。そのため、LLM に典型的な多くの問題も引き継いでいます。

- GILL は、プロンプトが表示されたときや、会話に役立つときに必ずしも画像を生成するわけではありません。

- GILL の制限は、視覚処理が限られていることです。現在、研究では各入力画像を表すために 4 つの視覚ベクトルのみを使用しています (計算上の制限のため)。これでは、下流のタスクに必要なすべての関連視覚情報を取得できない可能性があります。

- GILL は、生成されるコンテンツが間違っていたり、入力データと関係がなかったりする潜在的な幻覚など、LLM の予期しない動作を継承します。また、繰り返しのテキストが生成される場合もあり、必ずしも一貫した会話テキストが生成されるわけではありません。

著者について

ジン・ユー・コー

Jing Yu Koh は、CMU の機械学習部門の 2 年目の博士課程の学生で、Daniel Fried と Ruslan Salakhutdinov が指導教員です。

現在、彼の主な研究分野は基礎言語理解です。

ダニエル・フリード氏とルスラン・サラクティノフ氏からアドバイスを受けました。私は視覚と言語の問題という文脈で、基本的な言語理解に取り組んでいます。

それ以前は、Google Research の研究エンジニアとして、視覚と言語の問題や生成モデルに取り組んでいました。

<<:  AIが70年間で急成長した理由が明らかに!タイム誌の4枚の写真がアルゴリズムの進化の謎を明らかにする

>>:  涼宮ハルヒや李雲龍など32人のキャラクターをプレイ可能。このチャットボットはストーリーを非常によく理解しており、コードは商業的に使用できます。

ブログ    
ブログ    
ブログ    

推薦する

年末総括: 2021 年の人工知能 (AI) と機械学習 (ML) の 5 つの主要な開発トレンド

[[359772]]来年、AI テクノロジーはビジネス業務にさらに深く浸透するでしょう。人工知能 (...

2019年、AI技術は製造業が小さな努力で大きな成果を達成するのを助けるだろう

[[251579]] 2019 年には、新世代の人工知能 (AI) ソリューションが注目を集めるでし...

ワクチン生産を加速するには?答えは医学ではなくテクノロジーにある

世界各国の政府は新型コロナウイルス感染症の流行に対抗するためさまざまな対策を講じているが、世界的な流...

ディープラーニング技術に関する珍しいガイド

[[207922]]データ前処理(この部分は原著者が書いたものではなく、個人的な理解と関連内容に基づ...

最大フロー問題の解決における画期的な進歩: 新しいアルゴリズムは「驚くほど高速」

この問題はネットワークフロー理論において非常に基本的なものです。 「新しいアルゴリズムは驚くほど高速...

劉烈宏:中国の中核人工知能産業の規模は今年上半期に770億元に達した

[[354052]] 11月24日、工業情報化部の劉烈宏副部長は人工知能サブフォーラム「人工知能:新...

2019年自然言語処理フロンティアフォーラム: 機械による「読む、書く、話す、翻訳する」に焦点を当て、自然言語処理の未来を探る

人工知能の本質は、機械が人間のように世界を認識し理解できるようにすることです。言語と知識を研究する自...

人工知能アルゴリズムが核融合の応用に一歩近づく

核融合は現在一般的に使用されている核分裂法よりも安全で環境に優しいことはよく知られています。しかし、...

...

教師なし学習問題のための一般的なメタアルゴリズムベースのフレームワーク

11月13日、マイクロソフトリサーチとプリンストン大学の研究者らは、ガウス分布とサブスペースクラスタ...

...

データサイエンスと機械学習のためのツールと言語の最新情報

[[198310]]第 18 回 KDnuggets ソフトウェア アンケートには、今年もアナリティ...

ロボットアームをAIボーイフレンドに変えた女性プログラマーは何を考えているのか?

AIを搭載した「セックスロボット」については多くの議論がなされている。しかし、多くの人々、特に女性...

5Gのサポートにより、AIの顔を変えること以外に人工知能は何ができるのでしょうか?

近年、AIによる顔を変える技術がネットユーザーの間で大流行し、この人工知能の新興技術を一般人の生活に...

機械学習モデルの仕組み

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...