あなたが言う、私が描く、あなたが描く、私が言う:ERNIE-ViLG、世界最大の中国語クロスモーダル生成モデル

あなたが言う、私が描く、あなたが描く、私が言う:ERNIE-ViLG、世界最大の中国語クロスモーダル生成モデル

テキスト生成画像に関しては、Wenxin ERNIE-ViLG はユーザーが入力したテキストに基づいて画像を自動的に作成できます。生成された画像はテキストの説明に準拠しているだけでなく、非常にリアルな効果も実現します。画像からテキストへの生成において、ERNIE-ViLG は画像を理解し、画像の内容を簡潔な言葉で説明し、画像内のシーンに基づいて関連する質問に答えることができます。

少し前に、百度の産業レベルの知識強化モデル「文心」が発表されました。最近、クロスモーダル生成モデルERNIE-ViLGが百度文心公式サイトで体験できるように公開され、論文も発表されました。

体験リンク: https://wenxin.baidu.com/wenxin/ernie-vilg

論文リンク: https://arxiv.org/pdf/2112.15283.pdf

報道によると、文心ERNIE-ViLGのパラメータ規模は100億に達し、これは現在までに世界最大の中国のクロスモーダル生成モデルである。このモデルは、自己回帰アルゴリズムを通じて画像生成とテキスト生成のモデリングを統一し、モデルのクロスモーダル意味整合機能を強化し、画像とテキスト生成効果を大幅に向上させた初めてのモデルである。

このエディターでは、Wenxin ERNIE-ViLG の「イメージ作成」機能を体験できます。

テキスト生成画像に関しては、Wenxin ERNIE-ViLG はユーザーが入力したテキストに基づいて画像を自動的に作成できます。生成された画像はテキストの説明に準拠しているだけでなく、非常にリアルな効果も実現します。

知らせ!以下の画像はすべて新規に生成されたものであり、直接検索できるオリジナル画像ではありません。

Wenxin ERNIE-ViLG は、建物や動物などの単一のオブジェクトを作成できるだけではありません。

複数のオブジェクトを含む複雑なシーンを作成することも可能です。

ユーザーが入力したテキストに基づいてクリエイティブにすることもできます。

無限の想像力を持つ古代の詩に対して、Wenxin ERNIE-ViLG は適切な画像を生成し、さまざまな絵画スタイルに合わせて調整することもできます。

油絵風

中国の絵画スタイル

水彩画風

さらに、テキストプロンプトに従って絵を完成させることもできます。

画像からテキストへの生成に関しては、ERNIE-ViLG は画像を理解し、その内容を簡潔な言語で説明できます。

それだけでなく、ERNIE-ViLG は写真のシーンに基づいて関連する質問に答えることもできます。

現在、百度文心の公式サイトで体験できる文心ERNIE-ViLGのテキスト画像変換デモでは、古代の詩に基づいて絵画を作成し、詩の視覚的感覚を高めることができます。

これらの機能の背後には、どのような AI テクノロジーの秘密が隠されているのでしょうか?

クロスモーダル生成:AIにおける困難な問題

クロスモーダル生成とは、モダリティ間の意味の一貫性を維持しながら、あるモダリティ(テキスト、画像、音声)を別のモダリティに変換することを指します。

画像とテキストの生成は、クロスモーダル生成の課題の 1 つです。画像ベースのテキスト生成を例にとると、テキストの説明は高度に一般化されています。テキストに基づいて画像を生成するには、テキストではカバーされていない大量の詳細情報を考慮する必要があり、これは非常に困難です。例えば、「春の川の水が温かいと、鴨はまず知る」という句は、川の水と鴨という二つの対象と、春という季節についてのみ記述しており、鴨の色や川辺の桃の花、絵の中の対象の位置関係などについては具体的に記述していません。

春に川の水が温まると、アヒルは最初に知る

近年、生成的敵対ネットワーク(GAN)に基づく方法は、顔や風景などの限定された分野でのテキストから画像への生成タスクで優れた結果を達成しています。DALL-Eは、大規模な自己回帰生成モデルを使用して、画像フラグメント間の前方および後方依存関係を確立することで、多様な生成のモデリング機能を備えており、より多様性と難易度の高いオープンフィールドでのテキストから画像への生成で優れた結果を達成しています。

Baidu Wenxin ERNIE-ViLG モデルはさらに、統合されたクロスモーダル双方向生成モデルを提案しています。このモデルは、自己回帰生成モデルを通じて画像生成タスクとテキスト生成タスクを均一にモデル化し、モダリティ間の意味的整合関係をより適切に捉えることで、画像とテキストの双方向生成タスクの効果を同時に向上させます。テキスト生成画像の権威ある公開データセットである MS-COCO では、ERNIE-ViLG の画像品質評価指標 FID (Fréchet Inception Distance) が OpenAI の DALL-E などの類似モデルをはるかに上回り、複数の画像記述タスクで最高の結果を更新しました。さらに、ERNIE-ViLG は、強力なクロスモーダル理解機能により、生成型視覚質問応答タスクでも優れた結果を達成しました。

Wenxin ERNIE-ViLG 技術原理の解釈: 画像とテキストの双方向生成の統一モデリング

Baidu Wenxin ERNIE-ViLG は、エンコーダーとデコーダーのパラメーターを共有する Transformer を自己回帰生成のバックボーン ネットワークとして使用し、テキスト生成から画像生成、画像生成からテキスト生成という 2 つのタスクを同時に学習します。

ERNIE-ViLG は、画像ベクトル量子化技術に基づいて、画像を離散シーケンスとして表現し、テキストと画像に対して統一されたシーケンス自己回帰生成モデリングを実行します。テキストから画像を生成する場合、ERNIE-ViLG モデルの入力はテキスト トークン シーケンスであり、出力は画像トークン シーケンスです。画像からテキストを生成する場合、テキストの内容は入力画像シーケンスに基づいて予測されます。両方向の生成タスクには同じ Transformer モデルが使用されます。同じモデル パラメータで視覚モダリティと言語モダリティの両方に同じパターンを生成すると、モデルはより優れたクロスモーダル セマンティック アライメントを確立できるようになります。

Wenxin ERNIE-ViLG グラフィックスとテキストの双方向生成のための統合モデリング フレームワーク

離散画像表現に基づく既存のテキストから画像への生成モデルは、主に2段階のトレーニングを採用しています。テキストは視覚シーケンスを生成し、画像は視覚シーケンスに従って再構成されます。2つの段階は独立してトレーニングされます。Wenxin ERNIE-ViLGは、シーケンス生成プロセス中にTransformerモデルによって出力された潜在画像表現を画像復元の再構成モデ​​ルに接続し、再構成モデ​​ルに意味的に豊富な機能を提供するエンドツーエンドのトレーニング方法を提案しています。生成モデルは、独自の抽象監視信号と再構成モデ​​ルからの元の監視信号を同時に受信できるため、画像表現をより適切に学習できます。

Wenxin ERNIE-ViLG は、1 億 4,500 万件の高品質な中国語のテキストと画像のペアを含む大規模なクロスモーダル整合データセットを構築し、このデータセットに対して Baidu の PaddlePaddle ディープラーニング プラットフォームに基づく 100 億パラメータのモデルをトレーニングし、テキストから画像への生成や画像の説明などのクロスモーダル生成タスクにおけるモデルの有効性を評価しました。

テキストから画像への合成タスクの結果

ERNIE-ViLG がテ​​キストから画像を生成する能力は、オープンドメインのパブリックデータセット MS-COCO で検証されています。評価指標はFID(この指標の値が低いほど効果が高い)を採用した。ゼロショット法とファインチューニング法の両方において、Wenxin ERNIE-ViLGは最高の結果を達成し、OpenAIがリリースしたDALL-Eなどのモデルをはるかに上回った。

Wenxin ERNIE-ViLG が MS-COCO データセットに与える影響

画像キャプションタスクの結果

画像からテキストへの生成機能に関しては、ERNIE-ViLG は、公開されている 2 つの中国語画像キャプション生成データセット、COCO-CN と AIC-ICC で最高の結果を達成しました。

Wenxin ERNIE-ViLG が AIC-ICC データセットに与える影響

生成的 VQA タスクの結果

生成的ビジュアル質問応答の面でも、Wenxin ERNIE-ViLG はその優れた強さを示しました。生成型ビジュアル質問応答では、画像コンテンツとそれに対応する質問に基づいて回答を生成するモデルが必要です。モデルには、ビジュアル コンテンツの詳細な理解機能とクロスモーダルなセマンティック アライメント機能が必要であり、短い回答テキストを生成する必要がありますが、これは非常に困難です。 Wenxin ERNIE-ViLG は、FMIQA データセットで最高の結果を達成し、チューリング テスト合格率は 78.5% となり、現在の最良の方法よりも 14 パーセントポイント高くなりました。

Wenxin ERNIE-ViLG が FMIQA データセットに与える影響

結論

機械がクロスモーダル生成機能を持つようにすることは、人工知能の重要な目標の 1 つです。芸術創作、バーチャルリアリティ、画像編集、AI支援設計、バーチャルデジタルヒューマンなどの分野において、Wenxin ERNIE-ViLGなどのクロスモーダル大型モデルは幅広い応用展望があり、これらの分野の将来の発展に無限の創造性と可能性を提供します。百度の「文心」ビッグモデルパノラマの重要なメンバーとして、文心ERNIE-ViLGは、百度文心のクロスモーダルビッグモデル分野における確固たる一歩を象徴し、自主的な技術革新と産業応用の加速の側面から中国のAIの発展を継続的に推進しています。

<<:  MAEよりも強力なFAIRの新しいメソッドMaskFeatはHOGを使用して複数のSOTAを更新します

>>:  企業チームのスキルは AI 導入の障壁となるのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

IEEE: ディープフェイク技術のより深い理解

ほとんどの人は本物と偽物を区別できると自信を持っていますが、ディープフェイクの台頭により、この能力は...

...

世界の自動運転事故を比較し、そのデータと真実を明らかにした

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

歴史上最も知られていないアルゴリズムとして知られる Paxos は、どのようにして理解しやすくなったのでしょうか?

背景分散コンセンサスアルゴリズム(Consensus Algorithm)は、分散コンピューティング...

...

インテリジェントコンピューティングセンター構築の「サンゴ礁」と「灯台」

インテリジェント コンピューティング センターを「誰でもアクセス可能かつ無料」にする時が来ています。...

Llama2がオープンソース化された後、国内の大型モデルはどのような展開を見せるのでしょうか?

7 月 19 日、オープン ソース コミュニティの最も強力な大規模モデルが Llama から Ll...

最新のClaude2.1とLlama 2をご利用いただけます。アマゾンが生成型AI開発の参入障壁を下げる

良いニュースです。生成 AI アプリケーションの敷居が大幅に下がりました。先ほど、Amazon We...

人工知能がサービスと運用管理を改善する10の方法

ヨーロッパの多国籍通信会社は、BMC の Helix Chatbot を標準化して、全部門の 120...

...

著者の半数以上が中国人です! Google Researchの画像表現モデルALIGNがImageNetを支配

[[399343]]ニューラル ネットワークは実際には表現を学習しています。CV の分野では、優れ...

今後5年間の15の主要なテクノロジートレンド

私たちの生活、仕事、交流の仕方に革命をもたらす技術の進歩によって、未来は常に形を変えています。今後 ...

AI 実践者が習得する必要がある 10 種類のディープラーニング手法: バックプロパゲーション、転移学習、勾配降下法...

機械学習への関心は過去 10 年間で爆発的に高まりました。ほぼ毎日、さまざまなコンピューターサイエン...

...

ChatGPT が処理できない 5 つのプログラミング タスク

ネイト・ロシディ翻訳者 | ブガッティレビュー | Chonglou制作:51CTO テクノロジース...