あなたが言う、私が描く、あなたが描く、私が言う:ERNIE-ViLG、世界最大の中国語クロスモーダル生成モデル

あなたが言う、私が描く、あなたが描く、私が言う:ERNIE-ViLG、世界最大の中国語クロスモーダル生成モデル

テキスト生成画像に関しては、Wenxin ERNIE-ViLG はユーザーが入力したテキストに基づいて画像を自動的に作成できます。生成された画像はテキストの説明に準拠しているだけでなく、非常にリアルな効果も実現します。画像からテキストへの生成において、ERNIE-ViLG は画像を理解し、画像の内容を簡潔な言葉で説明し、画像内のシーンに基づいて関連する質問に答えることができます。

少し前に、百度の産業レベルの知識強化モデル「文心」が発表されました。最近、クロスモーダル生成モデルERNIE-ViLGが百度文心公式サイトで体験できるように公開され、論文も発表されました。

体験リンク: https://wenxin.baidu.com/wenxin/ernie-vilg

論文リンク: https://arxiv.org/pdf/2112.15283.pdf

報道によると、文心ERNIE-ViLGのパラメータ規模は100億に達し、これは現在までに世界最大の中国のクロスモーダル生成モデルである。このモデルは、自己回帰アルゴリズムを通じて画像生成とテキスト生成のモデリングを統一し、モデルのクロスモーダル意味整合機能を強化し、画像とテキスト生成効果を大幅に向上させた初めてのモデルである。

このエディターでは、Wenxin ERNIE-ViLG の「イメージ作成」機能を体験できます。

テキスト生成画像に関しては、Wenxin ERNIE-ViLG はユーザーが入力したテキストに基づいて画像を自動的に作成できます。生成された画像はテキストの説明に準拠しているだけでなく、非常にリアルな効果も実現します。

知らせ!以下の画像はすべて新規に生成されたものであり、直接検索できるオリジナル画像ではありません。

Wenxin ERNIE-ViLG は、建物や動物などの単一のオブジェクトを作成できるだけではありません。

複数のオブジェクトを含む複雑なシーンを作成することも可能です。

ユーザーが入力したテキストに基づいてクリエイティブにすることもできます。

無限の想像力を持つ古代の詩に対して、Wenxin ERNIE-ViLG は適切な画像を生成し、さまざまな絵画スタイルに合わせて調整することもできます。

油絵風

中国の絵画スタイル

水彩画風

さらに、テキストプロンプトに従って絵を完成させることもできます。

画像からテキストへの生成に関しては、ERNIE-ViLG は画像を理解し、その内容を簡潔な言語で説明できます。

それだけでなく、ERNIE-ViLG は写真のシーンに基づいて関連する質問に答えることもできます。

現在、百度文心の公式サイトで体験できる文心ERNIE-ViLGのテキスト画像変換デモでは、古代の詩に基づいて絵画を作成し、詩の視覚的感覚を高めることができます。

これらの機能の背後には、どのような AI テクノロジーの秘密が隠されているのでしょうか?

クロスモーダル生成:AIにおける困難な問題

クロスモーダル生成とは、モダリティ間の意味の一貫性を維持しながら、あるモダリティ(テキスト、画像、音声)を別のモダリティに変換することを指します。

画像とテキストの生成は、クロスモーダル生成の課題の 1 つです。画像ベースのテキスト生成を例にとると、テキストの説明は高度に一般化されています。テキストに基づいて画像を生成するには、テキストではカバーされていない大量の詳細情報を考慮する必要があり、これは非常に困難です。例えば、「春の川の水が温かいと、鴨はまず知る」という句は、川の水と鴨という二つの対象と、春という季節についてのみ記述しており、鴨の色や川辺の桃の花、絵の中の対象の位置関係などについては具体的に記述していません。

春に川の水が温まると、アヒルは最初に知る

近年、生成的敵対ネットワーク(GAN)に基づく方法は、顔や風景などの限定された分野でのテキストから画像への生成タスクで優れた結果を達成しています。DALL-Eは、大規模な自己回帰生成モデルを使用して、画像フラグメント間の前方および後方依存関係を確立することで、多様な生成のモデリング機能を備えており、より多様性と難易度の高いオープンフィールドでのテキストから画像への生成で優れた結果を達成しています。

Baidu Wenxin ERNIE-ViLG モデルはさらに、統合されたクロスモーダル双方向生成モデルを提案しています。このモデルは、自己回帰生成モデルを通じて画像生成タスクとテキスト生成タスクを均一にモデル化し、モダリティ間の意味的整合関係をより適切に捉えることで、画像とテキストの双方向生成タスクの効果を同時に向上させます。テキスト生成画像の権威ある公開データセットである MS-COCO では、ERNIE-ViLG の画像品質評価指標 FID (Fréchet Inception Distance) が OpenAI の DALL-E などの類似モデルをはるかに上回り、複数の画像記述タスクで最高の結果を更新しました。さらに、ERNIE-ViLG は、強力なクロスモーダル理解機能により、生成型視覚質問応答タスクでも優れた結果を達成しました。

Wenxin ERNIE-ViLG 技術原理の解釈: 画像とテキストの双方向生成の統一モデリング

Baidu Wenxin ERNIE-ViLG は、エンコーダーとデコーダーのパラメーターを共有する Transformer を自己回帰生成のバックボーン ネットワークとして使用し、テキスト生成から画像生成、画像生成からテキスト生成という 2 つのタスクを同時に学習します。

ERNIE-ViLG は、画像ベクトル量子化技術に基づいて、画像を離散シーケンスとして表現し、テキストと画像に対して統一されたシーケンス自己回帰生成モデリングを実行します。テキストから画像を生成する場合、ERNIE-ViLG モデルの入力はテキスト トークン シーケンスであり、出力は画像トークン シーケンスです。画像からテキストを生成する場合、テキストの内容は入力画像シーケンスに基づいて予測されます。両方向の生成タスクには同じ Transformer モデルが使用されます。同じモデル パラメータで視覚モダリティと言語モダリティの両方に同じパターンを生成すると、モデルはより優れたクロスモーダル セマンティック アライメントを確立できるようになります。

Wenxin ERNIE-ViLG グラフィックスとテキストの双方向生成のための統合モデリング フレームワーク

離散画像表現に基づく既存のテキストから画像への生成モデルは、主に2段階のトレーニングを採用しています。テキストは視覚シーケンスを生成し、画像は視覚シーケンスに従って再構成されます。2つの段階は独立してトレーニングされます。Wenxin ERNIE-ViLGは、シーケンス生成プロセス中にTransformerモデルによって出力された潜在画像表現を画像復元の再構成モデ​​ルに接続し、再構成モデ​​ルに意味的に豊富な機能を提供するエンドツーエンドのトレーニング方法を提案しています。生成モデルは、独自の抽象監視信号と再構成モデ​​ルからの元の監視信号を同時に受信できるため、画像表現をより適切に学習できます。

Wenxin ERNIE-ViLG は、1 億 4,500 万件の高品質な中国語のテキストと画像のペアを含む大規模なクロスモーダル整合データセットを構築し、このデータセットに対して Baidu の PaddlePaddle ディープラーニング プラットフォームに基づく 100 億パラメータのモデルをトレーニングし、テキストから画像への生成や画像の説明などのクロスモーダル生成タスクにおけるモデルの有効性を評価しました。

テキストから画像への合成タスクの結果

ERNIE-ViLG がテ​​キストから画像を生成する能力は、オープンドメインのパブリックデータセット MS-COCO で検証されています。評価指標はFID(この指標の値が低いほど効果が高い)を採用した。ゼロショット法とファインチューニング法の両方において、Wenxin ERNIE-ViLGは最高の結果を達成し、OpenAIがリリースしたDALL-Eなどのモデルをはるかに上回った。

Wenxin ERNIE-ViLG が MS-COCO データセットに与える影響

画像キャプションタスクの結果

画像からテキストへの生成機能に関しては、ERNIE-ViLG は、公開されている 2 つの中国語画像キャプション生成データセット、COCO-CN と AIC-ICC で最高の結果を達成しました。

Wenxin ERNIE-ViLG が AIC-ICC データセットに与える影響

生成的 VQA タスクの結果

生成的ビジュアル質問応答の面でも、Wenxin ERNIE-ViLG はその優れた強さを示しました。生成型ビジュアル質問応答では、画像コンテンツとそれに対応する質問に基づいて回答を生成するモデルが必要です。モデルには、ビジュアル コンテンツの詳細な理解機能とクロスモーダルなセマンティック アライメント機能が必要であり、短い回答テキストを生成する必要がありますが、これは非常に困難です。 Wenxin ERNIE-ViLG は、FMIQA データセットで最高の結果を達成し、チューリング テスト合格率は 78.5% となり、現在の最良の方法よりも 14 パーセントポイント高くなりました。

Wenxin ERNIE-ViLG が FMIQA データセットに与える影響

結論

機械がクロスモーダル生成機能を持つようにすることは、人工知能の重要な目標の 1 つです。芸術創作、バーチャルリアリティ、画像編集、AI支援設計、バーチャルデジタルヒューマンなどの分野において、Wenxin ERNIE-ViLGなどのクロスモーダル大型モデルは幅広い応用展望があり、これらの分野の将来の発展に無限の創造性と可能性を提供します。百度の「文心」ビッグモデルパノラマの重要なメンバーとして、文心ERNIE-ViLGは、百度文心のクロスモーダルビッグモデル分野における確固たる一歩を象徴し、自主的な技術革新と産業応用の加速の側面から中国のAIの発展を継続的に推進しています。

<<:  MAEよりも強力なFAIRの新しいメソッドMaskFeatはHOGを使用して複数のSOTAを更新します

>>:  企業チームのスキルは AI 導入の障壁となるのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

IEEE年末AIレビュー:ネットユーザーがGPT-3に悪態をつくよう教える、DeepMindが再びロボットを作る

[[442763]] 2021年、「人工知能の奇跡」はもはや単なる物語ではありません!年末が近づく中...

科学技術省はAIの使用を規制し、AIGCが申請資料を直接生成することを禁止する文書を発行した。

IT Homeは1月3日、科学技術部監督管理部門が先月「責任ある研究行為に関するガイドライン(20...

...

強化学習のフレームワークは AI 開発に新たなアイデアを生み出すでしょうか?

[[256809]]アルゴリズムを理解しておらず、AI機能を備えたアプリを開発したいアプリ開発者の...

人工知能は人間を管理することを学んでいます。将来、人工知能は人間の世界を支配するのでしょうか?

人間は自分たちが偉大だと思っているが、個々の人間は非常に弱い。人類は素晴らしい文明を築き上げましたが...

コンピューティングセンターからコンピューティングネットワークまで、人工知能は静かに変化している

人工知能はデジタル経済の高品質な発展の原動力であり、新たな科学技術革命と産業変革の重要な原動力です。...

...

...

6144個のTPU、5400億個のパラメータ、バグ修正、ジョーク解釈など、GoogleはPathwaysを使用して大規模なモデルをトレーニングしました

Google の次世代アーキテクチャ Pathways は、大規模なモデルのトレーニングに使用されて...

...

GNNの実装はもはや難しくありません。この記事では、効率的なGNNとスケーラブルなグラフ表現学習の最新の進歩についてまとめています。

グラフ ニューラル ネットワークは、現実世界に適用する場合、メモリ制限、ハードウェア制限、信頼性制限...

誰もが映画の「監督」! MSRA、北京大学、その他の大学が提案:ビデオ、映画、短編ビデオ生成モデル

Stable DiffusionとMidjourneyの人気以来、人々は画像生成の分野における人工知...

...

AIプロジェクトの失敗はもはや人材不足のせいにはされない

AI の取り組みが失敗すると、その責任はスキルのギャップにあるとされることが多いです。しかし、それだ...

Google の公式 Android Market ランキング アルゴリズムとルール

1. ランキングの計算式にはどのような指標が含まれていますか?指標 A、B、C とは何ですか? 重み...