あなたが言う、私が描く、あなたが描く、私が言う：ERNIE-ViLG、世界最大の中国語クロスモーダル生成モデル

テキスト生成画像に関しては、Wenxin ERNIE-ViLG はユーザーが入力したテキストに基づいて画像を自動的に作成できます。生成された画像はテキストの説明に準拠しているだけでなく、非常にリアルな効果も実現します。画像からテキストへの生成において、ERNIE-ViLG は画像を理解し、画像の内容を簡潔な言葉で説明し、画像内のシーンに基づいて関連する質問に答えることができます。

少し前に、百度の産業レベルの知識強化モデル「文心」が発表されました。最近、クロスモーダル生成モデルERNIE-ViLGが百度文心公式サイトで体験できるように公開され、論文も発表されました。

体験リンク: https://wenxin.baidu.com/wenxin/ernie-vilg

論文リンク: https://arxiv.org/pdf/2112.15283.pdf

報道によると、文心ERNIE-ViLGのパラメータ規模は100億に達し、これは現在までに世界最大の中国のクロスモーダル生成モデルである。このモデルは、自己回帰アルゴリズムを通じて画像生成とテキスト生成のモデリングを統一し、モデルのクロスモーダル意味整合機能を強化し、画像とテキスト生成効果を大幅に向上させた初めてのモデルである。

このエディターでは、Wenxin ERNIE-ViLG の「イメージ作成」機能を体験できます。

テキスト生成画像に関しては、Wenxin ERNIE-ViLG はユーザーが入力したテキストに基づいて画像を自動的に作成できます。生成された画像はテキストの説明に準拠しているだけでなく、非常にリアルな効果も実現します。

知らせ！以下の画像はすべて新規に生成されたものであり、直接検索できるオリジナル画像ではありません。

Wenxin ERNIE-ViLG は、建物や動物などの単一のオブジェクトを作成できるだけではありません。

複数のオブジェクトを含む複雑なシーンを作成することも可能です。

ユーザーが入力したテキストに基づいてクリエイティブにすることもできます。

無限の想像力を持つ古代の詩に対して、Wenxin ERNIE-ViLG は適切な画像を生成し、さまざまな絵画スタイルに合わせて調整することもできます。

油絵風

中国の絵画スタイル

水彩画風

さらに、テキストプロンプトに従って絵を完成させることもできます。

画像からテキストへの生成に関しては、ERNIE-ViLG は画像を理解し、その内容を簡潔な言語で説明できます。

それだけでなく、ERNIE-ViLG は写真のシーンに基づいて関連する質問に答えることもできます。

現在、百度文心の公式サイトで体験できる文心ERNIE-ViLGのテキスト画像変換デモでは、古代の詩に基づいて絵画を作成し、詩の視覚的感覚を高めることができます。

これらの機能の背後には、どのような AI テクノロジーの秘密が隠されているのでしょうか?

クロスモーダル生成：AIにおける困難な問題

クロスモーダル生成とは、モダリティ間の意味の一貫性を維持しながら、あるモダリティ（テキスト、画像、音声）を別のモダリティに変換することを指します。

画像とテキストの生成は、クロスモーダル生成の課題の 1 つです。画像ベースのテキスト生成を例にとると、テキストの説明は高度に一般化されています。テキストに基づいて画像を生成するには、テキストではカバーされていない大量の詳細情報を考慮する必要があり、これは非常に困難です。例えば、「春の川の水が温かいと、鴨はまず知る」という句は、川の水と鴨という二つの対象と、春という季節についてのみ記述しており、鴨の色や川辺の桃の花、絵の中の対象の位置関係などについては具体的に記述していません。

春に川の水が温まると、アヒルは最初に知る

近年、生成的敵対ネットワーク（GAN）に基づく方法は、顔や風景などの限定された分野でのテキストから画像への生成タスクで優れた結果を達成しています。DALL-Eは、大規模な自己回帰生成モデルを使用して、画像フラグメント間の前方および後方依存関係を確立することで、多様な生成のモデリング機能を備えており、より多様性と難易度の高いオープンフィールドでのテキストから画像への生成で優れた結果を達成しています。

Baidu Wenxin ERNIE-ViLG モデルはさらに、統合されたクロスモーダル双方向生成モデルを提案しています。このモデルは、自己回帰生成モデルを通じて画像生成タスクとテキスト生成タスクを均一にモデル化し、モダリティ間の意味的整合関係をより適切に捉えることで、画像とテキストの双方向生成タスクの効果を同時に向上させます。テキスト生成画像の権威ある公開データセットである MS-COCO では、ERNIE-ViLG の画像品質評価指標 FID (Fréchet Inception Distance) が OpenAI の DALL-E などの類似モデルをはるかに上回り、複数の画像記述タスクで最高の結果を更新しました。さらに、ERNIE-ViLG は、強力なクロスモーダル理解機能により、生成型視覚質問応答タスクでも優れた結果を達成しました。

Wenxin ERNIE-ViLG 技術原理の解釈: 画像とテキストの双方向生成の統一モデリング

Baidu Wenxin ERNIE-ViLG は、エンコーダーとデコーダーのパラメーターを共有する Transformer を自己回帰生成のバックボーンネットワークとして使用し、テキスト生成から画像生成、画像生成からテキスト生成という 2 つのタスクを同時に学習します。

ERNIE-ViLG は、画像ベクトル量子化技術に基づいて、画像を離散シーケンスとして表現し、テキストと画像に対して統一されたシーケンス自己回帰生成モデリングを実行します。テキストから画像を生成する場合、ERNIE-ViLG モデルの入力はテキストトークンシーケンスであり、出力は画像トークンシーケンスです。画像からテキストを生成する場合、テキストの内容は入力画像シーケンスに基づいて予測されます。両方向の生成タスクには同じ Transformer モデルが使用されます。同じモデルパラメータで視覚モダリティと言語モダリティの両方に同じパターンを生成すると、モデルはより優れたクロスモーダルセマンティックアライメントを確立できるようになります。

Wenxin ERNIE-ViLG グラフィックスとテキストの双方向生成のための統合モデリングフレームワーク

離散画像表現に基づく既存のテキストから画像への生成モデルは、主に2段階のトレーニングを採用しています。テキストは視覚シーケンスを生成し、画像は視覚シーケンスに従って再構成されます。2つの段階は独立してトレーニングされます。Wenxin ERNIE-ViLGは、シーケンス生成プロセス中にTransformerモデルによって出力された潜在画像表現を画像復元の再構成モデルに接続し、再構成モデルに意味的に豊富な機能を提供するエンドツーエンドのトレーニング方法を提案しています。生成モデルは、独自の抽象監視信号と再構成モデルからの元の監視信号を同時に受信できるため、画像表現をより適切に学習できます。

Wenxin ERNIE-ViLG は、1 億 4,500 万件の高品質な中国語のテキストと画像のペアを含む大規模なクロスモーダル整合データセットを構築し、このデータセットに対して Baidu の PaddlePaddle ディープラーニングプラットフォームに基づく 100 億パラメータのモデルをトレーニングし、テキストから画像への生成や画像の説明などのクロスモーダル生成タスクにおけるモデルの有効性を評価しました。

テキストから画像への合成タスクの結果

ERNIE-ViLG がテキストから画像を生成する能力は、オープンドメインのパブリックデータセット MS-COCO で検証されています。評価指標はFID（この指標の値が低いほど効果が高い）を採用した。ゼロショット法とファインチューニング法の両方において、Wenxin ERNIE-ViLGは最高の結果を達成し、OpenAIがリリースしたDALL-Eなどのモデルをはるかに上回った。

Wenxin ERNIE-ViLG が MS-COCO データセットに与える影響

画像キャプションタスクの結果

画像からテキストへの生成機能に関しては、ERNIE-ViLG は、公開されている 2 つの中国語画像キャプション生成データセット、COCO-CN と AIC-ICC で最高の結果を達成しました。

Wenxin ERNIE-ViLG が AIC-ICC データセットに与える影響

生成的 VQA タスクの結果

生成的ビジュアル質問応答の面でも、Wenxin ERNIE-ViLG はその優れた強さを示しました。生成型ビジュアル質問応答では、画像コンテンツとそれに対応する質問に基づいて回答を生成するモデルが必要です。モデルには、ビジュアルコンテンツの詳細な理解機能とクロスモーダルなセマンティックアライメント機能が必要であり、短い回答テキストを生成する必要がありますが、これは非常に困難です。 Wenxin ERNIE-ViLG は、FMIQA データセットで最高の結果を達成し、チューリングテスト合格率は 78.5% となり、現在の最良の方法よりも 14 パーセントポイント高くなりました。

Wenxin ERNIE-ViLG が FMIQA データセットに与える影響

結論

機械がクロスモーダル生成機能を持つようにすることは、人工知能の重要な目標の 1 つです。芸術創作、バーチャルリアリティ、画像編集、AI支援設計、バーチャルデジタルヒューマンなどの分野において、Wenxin ERNIE-ViLGなどのクロスモーダル大型モデルは幅広い応用展望があり、これらの分野の将来の発展に無限の創造性と可能性を提供します。百度の「文心」ビッグモデルパノラマの重要なメンバーとして、文心ERNIE-ViLGは、百度文心のクロスモーダルビッグモデル分野における確固たる一歩を象徴し、自主的な技術革新と産業応用の加速の側面から中国のAIの発展を継続的に推進しています。

<<: MAEよりも強力なFAIRの新しいメソッドMaskFeatはHOGを使用して複数のSOTAを更新します

>>: 企業チームのスキルは AI 導入の障壁となるのでしょうか?

FlashOcc: 占有率予測への新しいアプローチで、最先端の精度、効率、メモリ使用量を実現します。

あなたが言う、私が描く、あなたが描く、私が言う：ERNIE-ViLG、世界最大の中国語クロスモーダル生成モデル

FlashOcc: 占有率予測への新しいアプローチで、最先端の精度、効率、メモリ使用量を実現します。

独自のロジックと優れた AI テクノロジーを備えた Kuaishou は、1 日あたり 1 億 6,000 万人のアクティブユーザーと 1 日あたり 1,500 万件を超えるアップロードを誇ります。

普通のプログラマーから人工知能の仕事に転職するにはどうすればいいでしょうか?

小売業界におけるRPA活用事例11選

考えるべき5つのAIリスク

これらの 9 つの仕事が人工知能に置き換えられない理由

ディープラーニングの限界と将来

2021 年の AI イノベーショントレンドトップ 10

マッキンゼーのレポート：これらの業界が人工知能に転換しなければ、ますます取り残されることになる

推薦する

Google、医療従事者が情報を素早く見つけられるようにAI検索機能を開始

AI 転移学習はどのように機能しますか? AI モデルとトレーニングプロセスでどのような役割を果たすのでしょうか?

世界初の電動ロボットが「宙返り」を練習し、ボストン・ダイナミクス・アトラスに挑戦！コーヒーアートも作れます。

Reddit で高く評価：機械学習分野における「8つの大罪」！査読は変化し、偶像崇拝が蔓延している

ロボットシェフはトマト入りスクランブルエッグ9品を試食した後、味覚マップを描いた。

機械学習をよりスマートにする 5 つの成功事例

機械学習とコンピュータービジョンのためのトップ 20 画像データセット

人工知能は職場のつながりとコラボレーションを変革できる

WAVE SUMMITが今年もやって来ました！ AI 開発者の饗宴がこの寒い冬を盛り上げます!

データがなければ自動運転の未来はない: 自動運転車にビッグデータが必要な理由

Google のビッグモデル研究は大きな論争に巻き込まれている。トレーニングデータを超えて一般化することはまったくできないのだろうか?ネットユーザー：AGIシンギュラリティは延期された

AIチップがまだ普及していないのはなぜでしょうか？