拡散モデルは複雑なプロンプト単語をよりよく理解します。 Pika、北京大学、スタンフォード大学がLLMを使用して理解を深める新しいフレームワークをオープンソース化

Pika、北京大学、スタンフォード大学が共同で最新のテキスト画像生成/編集フレームワークをオープンソース化しました。

追加のトレーニングを行わなくても、拡散モデルはプロンプト単語を理解する能力を高めることができます。

非常に長く複雑なプロンプトワードに直面した場合でも、精度が向上し、詳細に対する制御が強化され、生成される画像はより自然になります。

その効果は最強の画像生成モデルDall·E 3やSDXLを凌駕します。

たとえば、絵には、左側に氷山、右側に火山というように、左右に氷と火のコントラストが求められる場合があります。

SDXL はプロンプトの要件をまったく満たしておらず、Dall E 3 は火山の詳細を生成しません。

生成された画像は、プロンプトワードを通じて再度編集することもできます。

これは、すでにネット上で熱い議論を巻き起こしているテキスト・画像生成・編集フレームワークRPG （Recaption、Plan、Generate）です。

これは北京大学、スタンフォード大学、Pika によって共同開発されました。著者には、北京大学コンピュータサイエンス学院の Cui Bin 教授、Pika の共同創設者兼 CTO の Chenlin Meng 氏などが含まれています。

フレームワークコードは現在オープンソースになっており、さまざまな大規模マルチモーダルモデル (MiniGPT-4 など) や拡散モデルバックボーンネットワーク (ControlNet など) と互換性があります。

マルチモーダル大規模モデルの使用による機能強化

拡散モデルは歴史的に、複雑な手がかり語を理解するのが比較的苦手でした。

既存の改善方法の中には、最終的に良い結果が得られなかったり、追加のトレーニングが必要になるものもあります。

そこで研究チームは、大規模なマルチモーダルモデルの理解能力を活用して、拡散モデルの組み合わせと制御性を高めました。

フレームワークの名前が示すように、モデルを「再記述、計画、生成」することができます。

このアプローチの中核となる戦略は次の 3 つです。

1. マルチモーダル再キャプション: 大規模なモデルを使用して複雑なテキストプロンプトを複数のサブプロンプトに分解し、各サブプロンプトをより詳細に再記述して、拡散モデルのプロンプト単語の理解能力を向上させます。

2. 思考の連鎖計画：マルチモーダル大規模モデルの思考の連鎖推論能力を活用して、画像空間を補完的なサブ領域に分割し、各サブ領域に異なるサブキューを一致させ、複雑な生成タスクを複数のより単純な生成タスクに分解します。

3. 補完的な領域拡散: 空間が分割された後、重複しない領域はそれぞれサブキューに基づいて画像を生成し、それらをつなぎ合わせます。

最後に、プロンプトワードの要件をよりよく満たす画像を生成できます。

RPG フレームワークでは、姿勢や深度などの情報も画像生成に使用できます。

ControlNet と比較すると、RPG は入力プロンプトの単語をさらに分割できます。

ユーザー入力: 明るい部屋に、シャンパン色の長袖のフォーマルドレスを着て目を閉じた美しい黒髪の少女が立っています。部屋の左側にはピンクのバラが入った繊細な青い花瓶があり、右側には鮮やかな白いバラがいくつかありました。

基本的なプロンプト語: かわいい女の子が明るい部屋に立っています。

エリア0: ピンクのバラが入った繊細な青い花瓶

エリア1：目を閉じてシャンパンカラーの長袖のフォーマルドレスを着た美しい黒髪の少女。

ゾーン 2: 鮮やかな白いバラ。

画像生成と編集の閉ループも実現できます。

実験的な比較から、RPG は色、形状、スペース、テキストの精度の点で他の画像生成モデルを上回っています。

研究チーム

この研究には北京大学のリン・ヤン氏とチャオチェン・ユー氏の2人の共同筆頭著者がいる。

他の共著者には、AI スタートアップ Pika の共同創設者兼 CTO である Chenlin Meng氏が含まれます。

彼女はスタンフォード大学でコンピューターサイエンスの博士号を取得しており、コンピュータービジョンと 3D ビジョンに関する幅広い学術経験を持っています。彼女が参加した Denoising Diffusion Implicit Model (DDIM) の論文は、現在 1,700 回以上引用されています。さらに、ICLR、NeurIPS、CVPR、ICMLなどのトップカンファレンスで生成AI関連の研究論文が多数発表されており、その多くが口頭発表に選ばれています。

昨年、Pika は AI 動画生成製品 Pika 1.0 で瞬く間にヒットしました。スタンフォード大学の中国人女性博士 2 人によって設立されたという事実が、さらに注目を集めました。

△左が郭文静（ピカCEO）、右が孟陳林

この研究には、北京大学コンピュータサイエンス学院副学部長兼データサイエンス・エンジニアリング研究所所長の崔斌教授も参加している。

さらに、スタンフォードAIラボの博士号を持つミンカイ・シュー氏とスタンフォード大学の助教授であるステファノ・エルモン氏もこの研究に参加しました。

論文アドレス: https://arxiv.org/abs/2401.11708

コードアドレス: https://github.com/YangLing0818/RPG-DiffusionMaster

<<: おそらく2030年までに、量子コンピューティングのChatGPTの瞬間が到来するだろう

>>:

Google Brain の公開: アルゴリズムのエラー修正と AI バイアスの解決に重点を置く

ブログ

推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

ブログ

世界AIトップ100リストが発表、中国企業6社が選出

ブログ

拡散モデルは複雑なプロンプト単語をよりよく理解します。 Pika、北京大学、スタンフォード大学がLLMを使用して理解を深める新しいフレームワークをオープンソース化

マルチモーダル大規模モデルの使用による機能強化

研究チーム

Google Brain の公開: アルゴリズムのエラー修正と AI バイアスの解決に重点を置く

GoogleはOpenAIの競合企業Anthropicに最大20億ドルを投資することに同意したと報じられている

今後数年間の AI 求人市場はどのようになるでしょうか?

旅の途中を超えて？文脈学習に基づく画像拡散モデルのトレーニング [Frontiers]

中国の博士が強化学習を使ってSpaceXのロケットを回収

IoTとAIのトレンドが今日のビジネスに及ぼす影響

推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

世界AIトップ100リストが発表、中国企業6社が選出

推薦する

交通における人工知能: スマートソリューションによる交通革命

タオバオライブストリーミングトラフィックと供給間のエンドツーエンドの連携の調査

Meili United が VALSE カンファレンスで「ファッションをグラフィックで説明」する画像アルゴリズムの体験を共有する方法

モノのインターネットにおける機械学習の役割は何ですか?

人工知能は最終的に人間に取って代わるのでしょうか?現時点では、あらゆる面で人間を超えることは難しいでしょう。

ハッカーの天敵！ AI はサイバー攻撃の防御にどのように役立つのでしょうか?

蘇寧電子商取引プラットフォームにおけるAI技術＋短編動画の応用

対称暗号化アルゴリズムと非対称暗号化アルゴリズムの違いは何ですか?

大規模言語モデルに基づくインテリジェントエージェントのモデリングとシミュレーション：レビューと展望