Googleが絵画におけるAI使用の権利を取り戻す、ネットユーザー「DALL・E 2は発売からわずか1ヶ月で時代遅れ？」

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

GoogleとOpenAIは、AIによる創造を許可するかどうかという問題で真っ向から対立している。

ネットワーク全体に衝撃を与えた DALL·E 2 がリリースされてからわずか 1 か月後、Google はImagenという競合企業を競合に送り込みました。

上の写真を比較してください。左側は Google Imagen の参加者が見た「人間の像につまずく猫」で、右側は DALL·E 2 の参加者が同じテーマで作ったものです。

どちらの出場者の作品がテーマにもっと合っていると思いますか?

ネットユーザーが「DALL・E 2は時代遅れ？」と叫ぶのは、この正面からのPKの興奮だけではない。

こういう写真を見ると、AIで生成されたと言わないまでも、二足歩行動物のポージング技術がどんどん進化しているなあとまずため息が出ませんか？

「折り紙：雪の森の中のキツネとユニコーン」と入力すると、Imagen は次のようなものを作成します。

テキストを長くしてみることもできます。

キッチンで生地を作るシェフに扮した、とても幸せそうなふわふわのパンダのこのハイコントラストなポートレートのように、後ろの壁には花の絵が描かれています…（ああ、息を整えさせてください）

Imagen も、すべての要素を備えて簡単に勝利しました。

これを見た機械学習界のネットユーザーは次のように反応した。

まさか、まだ1ヶ月しか経っていないのに、もう更新されているんですか？

ショックを与えるのはやめてください。

この件が有名になると、すぐに広まりました。

見物人たちもすぐに同じことを思いました。

将来的には写真ギャラリーのウェブサイトは必要なくなるかもしれません。

では、Google のこの新しい AI にはどのような独自のスキルがあるのでしょうか?

具体的な詳細については読み進めてください。

「生成」を最適化するよりも「理解」を向上させることが重要

これまでにもテキストから画像への生成を多数紹介してきましたが、基本的には同じルーチンです。

CLIP は、テキスト機能から画像機能へのマッピングを担当し、その後、GAN または拡散モデルをガイドして画像を生成します。

しかし今回、Google Imagen は破壊的な変化を起こした――

純粋な言語モデルを使用すると、テキスト機能のエンコードのみが担当され、テキストを画像に変換する作業は画像生成モデルに任されます。

言語モデル部分はGoogle独自のT5-XXLを使用し、テキストエンコーダーはトレーニング後にフリーズされます。

画像生成部分は一連の拡散モデルであり、最初に低解像度の画像を生成し、次に段階的にスーパーサンプリングします。

これを実行する最大の利点は、高品質の画像やテキストデータよりも純粋なテキストトレーニングデータを取得する方がはるかに簡単になることです。

T5-XXL の C4 トレーニングセットには800 GBのプレーンテキストコーパスが含まれており、そのテキスト理解能力は、限られた画像とテキストのペアでトレーニングされた CLIP よりも強力です。

これは実験データによっても裏付けられています。人間による評価では、T5-XXL は忠実度と意味的整合の点で CLIP よりも優れたパフォーマンスを発揮します。

Google は実験の中で、画像生成モデルを拡大するよりも言語モデルのサイズを拡大する方が最終的な効果に大きな影響を与えることも発見しました。

これを見て、一部のネットユーザーは、Googleが最終的に採用したT5-XXLのパラメータ規模は、最新のPaLM言語モデルの5400億パラメータの1％未満であると指摘しました。PaLMを使用した場合はどうなるのでしょうか？

言語モデルの発見に加えて、Google は Imagen 研究を通じてスケーリングモデルに数多くの最適化を施しました。

まず、分類器を使用しないガイダンスの重みを増やすと、画像とテキストの配置は改善されますが、画像の忠実度は低下します。

解決策は、過飽和を防ぐために各サンプリングステップで動的しきい値を使用することです。

第二に、低解像度の画像にノイズを追加しながら高いガイダンス重みを使用すると、拡散モデルの多様性の欠如を改善できます。

3 つ目は、拡散モデルの従来の構造である U-Net が改良されたことです。新しいEfficient U-Net では、メモリの使用効率、収束速度、推論時間が向上しています。

言語理解と画像生成の両方が改善されたため、Imagen モデル全体の評価も良好でした。

たとえば、トレーニングに COCO データセットを使用せずに、 COCO ベンチマークで新しい SOTA を達成しました。

Imagen の欠点は、COCO テストの人間評価部分でも見つかりました。それは、人間の画像を生成するのが得意ではないということです。

具体的には、人間が写っていない画像は、リアリティの点で人間に高く評価されます。

同時に、Google は、COCO よりも難易度が高く、さまざまなトリッキーなプロンプトを含むテストベンチマークであるDrawBench をリリースしました。

実験の結果、DALL·E 2 では 2 つの色要件が同時に現れる状況を正確に理解することが難しいのに対し、Imagen では問題がないことがわかりました。

「宇宙飛行士に乗る馬」のような直感に反する状況では、どちらもパフォーマンスが悪く、描くことができるのは「馬に乗る宇宙飛行士」だけです。

しかし、イマジェン氏の「ラテアートを作るパンダ」の理解はより正確で、間違えたのは一度だけだった。 DALL·E 2はラテアートの柄すべてにパンダが描かれています。

△「宇宙飛行士が馬に乗る」というのはちょっと直感に反するかもしれない（犬の頭）

画像内にテキストを表示する必要がある場合には、Imagen の方が適しています。

テキストを正しく書くという基本に加えて、テキストに花火の効果を正しく追加することもできます。

AIペインティングはますます人気が高まっている

そういえば、AIペインティングはGoogle発祥です。

2015年、Googleはテキストに基づいて画像を生成するAIの先駆者となったDeepDreamをリリースしました。

△DeepDream作品

しかし、関連技術の真のブレークスルーについて言えば、画期的な出来事は2021年のOpenAIのDALL·Eの登場でしょう。

当時、Andrew Ng氏やKerasの生みの親など多くの大物が推進し、好評を博し、DALL·Eは2021年最初のエキサイティングなAI技術のブレークスルーとさえ呼ばれました。

その後、長年にわたる言語理解モデルと画像生成モデルの技術進歩が「AI絵画」の分野で爆発的に広がり、CLIP+GANやCLIP+拡散モデルの一連の研究と応用がインターネット上で頻繁に流行を巻き起こしました。

それ以来、物事は止められなくなり、技術の更新と反復はますます速くなりました。

DALL·E 2 が初めてリリースされたとき、一部のネットユーザーが新しい SOTA が登場するまでにどれくらいの時間がかかるかを尋ねるアンケートを開始しました。

当時は、数か月から1年以上を選択する人がほとんどでした。

しかし今、Imagen はわずか6 週間で登場しました。

AI ペイント効果がますます強力になるにつれて、その視聴者も拡大し、技術界を突破して世間の注目を集めています。

少し前に、AI ペイントアプリが Apple App Store のグラフィックとデザインのランキングでトップになりました。

最近の最新トレンドとしては、あらゆる分野のデザイナーがMidjourneyやTiamatなどの市販製品の内部テストに応募するために列をなしており、それがソーシャルネットワークに溢れている。

これにより、OpenAIやGoogleなどの大企業にも大きなプレッシャーがかかっています。

AI の倫理と公平性を考慮し、DALL·E 2 も Imagen も直接オープンソースではなく、オープン API も備えていません。

彼らはそれぞれ、論文の中でリスクの内容と社会的影響についてもかなりのスペースを割いていました。

OpenAIは内部テストモードを選択しましたが、Googleはさらなる研究と規制を続けており、AIが悪用されないことを確認した後でのみリリースを公開する予定です。

今すぐ Imagen を体験したい場合は、オンラインデモがあります。

与えられたいくつかのプロンプトワードから、さまざまなシーンを自由に組み合わせることができます。

ぜひお試しください〜

デモアドレス:
https://gweb-research-imagen.appspot.com

論文の宛先:
https://gweb-research-imagen.appspot.com/paper.pdf

<<: DeepMindがMuJoCoをオープンソース化！メタは「スケルトンハンド」にクルミをプレイさせるために使用されます

>>: インテリジェント運転の「人材不足」は大学の科目ゲームに閉じ込められている

ブログ

GNN の科学: テンセント AI ラボと清華大学が、等変グラフニューラルネットワークをレビューする論文を共同で発表

ブログ

Googleが絵画におけるAI使用の権利を取り戻す、ネットユーザー「DALL・E 2は発売からわずか1ヶ月で時代遅れ？」

「生成」を最適化するよりも「理解」を向上させることが重要

AIペインティングはますます人気が高まっている

李開復「2021年を予測」：4つの主要分野が前例のない発展の機会をもたらす

GPT-4V はどのようにして数学的推論を実行するのでしょうか?マイクロソフトがMathVistaベンチマークを発表、評価レポートは112ページ

ビッグデータとディープラーニングは、仕事帰りの交通渋滞の回避にどのように役立つのでしょうか?

機械学習におけるデータの不均衡の問題を解決するにはどうすればよいでしょうか?

2020 DIGIXグローバルキャンパスAIアルゴリズムエリートコンペティションが成功裏に終了し、キャンパスのイノベーションを刺激

推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

GNN の科学: テンセント AI ラボと清華大学が、等変グラフニューラルネットワークをレビューする論文を共同で発表

推薦する

「万能AI」GPT-3の中国版を作る方法

メタは自社の弁護士の警告を無視し、海賊版書籍を使用してAIモデルを訓練したと報じられている。

GitHub の最も有名な 20 の Python 機械学習プロジェクトは収集する価値があります。

タイミング解析の一般的なアルゴリズムはすべてここにあります

インテリジェントなクラウドネイティブアプリケーションの台頭

中国の研究チームが86%の精度を誇るAI「皮肉」検出モデルを発表

TensorFlow から Theano まで: 7 つのディープラーニングフレームワークの水平比較

人工知能技術を開発すべきでしょうか？

2018 年の画期的なテクノロジートップ 10: AI と知覚都市

スパイラルはリアルタイムの機械学習を使用してFacebookのサービスを自動調整します

AIの価値を実現する上での5つの障壁とその克服方法

7Bモデルがまた手に入ると最高ですね！ 700億のLLaMA2を突破、Appleのコンピュータは

室温超伝導の続編はあるのでしょうか？中国チームはLK-99がマイスナー効果を持つ可能性があることを再び証明し、論文がアップロードされたばかりである。