Googleが絵画におけるAI使用の権利を取り戻す、ネットユーザー「DALL・E 2は発売からわずか1ヶ月で時代遅れ?」

Googleが絵画におけるAI使用の権利を取り戻す、ネットユーザー「DALL・E 2は発売からわずか1ヶ月で時代遅れ?」

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

GoogleとOpenAIは、AIによる創造を許可するかどうかという問題で真っ向から対立している。

ネットワーク全体に衝撃を与えた DALL·E 2 がリリースされてからわずか 1 か月後、Google はImagenという競合企業を競合に送り込みました。

上の写真を比較してください。左側は Google Imagen の参加者が見た「人間の像につまずく猫」で、右側は DALL·E 2 の参加者が同じテーマで作ったものです。

どちらの出場者の作品がテーマにもっと合っていると思いますか?

ネットユーザーが「DALL・E 2は時代遅れ?」と叫ぶのは、この正面からのPKの興奮だけではない。

こういう写真を見ると、AIで生成されたと言わないまでも、二足歩行動物のポージング技術がどんどん進化しているなあとまずため息が出ませんか?

「折り紙:雪の森の中のキツネとユニコーン」と入力すると、Imagen は次のようなものを作成します。

テキストを長くしてみることもできます。

キッチンで生地を作るシェフに扮した、とても幸せそうなふわふわのパンダのこのハイコントラストなポートレートのように、後ろの壁には花の絵が描かれています…(ああ、息を整えさせてください)

Imagen も、すべての要素を備えて簡単に勝利しました。

これを見た機械学習界のネットユーザーは次のように反応した。

まさか、まだ1ヶ月しか経っていないのに、もう更新されているんですか?

ショックを与えるのはやめてください。

この件が有名になると、すぐに広まりました。

見物人たちもすぐに同じことを思いました。

将来的には写真ギャラリーのウェブサイトは必要なくなるかもしれません。

では、Google のこの新しい AI にはどのような独自のスキルがあるのでしょうか?

具体的な詳細については読み進めてください。

「生成」を最適化するよりも「理解」を向上させることが重要

これまでにもテキストから画像への生成を多数紹介してきましたが、基本的には同じルーチンです。

CLIP は、テキスト機能から画像機能へのマッピングを担当し、その後、GAN または拡散モデルをガイドして画像を生成します。

しかし今回、Google Imagen は破壊的な変化を起こした――

純粋な言語モデルを使用すると、テキスト機能のエンコードのみが担当され、テキストを画像に変換する作業は画像生成モデルに任されます。

言語モデル部分はGoogle独自のT5-XXLを使用し、テキストエンコーダーはトレーニング後にフリーズされます。

画像生成部分は一連の拡散モデルであり、最初に低解像度の画像を生成し、次に段階的にスーパーサンプリングします。

これを実行する最大の利点は、高品質の画像やテキスト データよりも純粋なテキスト トレーニング データを取得する方がはるかに簡単になることです。

T5-XXL の C4 トレーニング セットには800 GBのプレーン テキスト コーパスが含まれており、そのテキスト理解能力は、限られた画像とテキストのペアでトレーニングされた CLIP よりも強力です。

これは実験データによっても裏付けられています。人間による評価では、T5-XXL は忠実度と意味的整合の点で CLIP よりも優れたパフォーマンスを発揮します。

Google は実験の中で、画像生成モデルを拡大するよりも言語モデルのサイズを拡大する方が最終的な効果に大きな影響を与えることも発見しました。

これを見て、一部のネットユーザーは、Googleが最終的に採用したT5-XXLのパラメータ規模は、最新のPaLM言語モデルの5400億パラメータの1%未満であると指摘しました。PaLMを使用した場合はどうなるのでしょうか?

言語モデルの発見に加えて、Google は Imagen 研究を通じてスケーリング モデルに数多くの最適化を施しました。

まず、分類器を使用しないガイダンスの重みを増やすと、画像とテキストの配置は改善されますが、画像の忠実度は低下します。

解決策は、過飽和を防ぐために各サンプリング ステップで動的しきい値を使用することです。

第二に、低解像度の画像にノイズを追加しながら高いガイダンス重みを使用すると、拡散モデルの多様性の欠如を改善できます。

3 つ目は、拡散モデルの従来の構造である U-Net が改良されたことです。新しいEfficient U-Net では、メモリの使用効率、収束速度、推論時間が向上しています。

言語理解と画像生成の両方が改善されたため、Imagen モデル全体の評価も良好でした。

たとえば、トレーニングに COCO データセットを使用せずに、 COCO ベンチマークで新しい SOTA を達成しました。

Imagen の欠点は、COCO テストの人間評価部分でも見つかりました。それは、人間の画像を生成するのが得意ではないということです。

具体的には、人間が写っていない画像は、リアリティの点で人間に高く評価されます。

同時に、Google は、COCO よりも難易度が高く、さまざまなトリッキーなプロンプトを含むテストベンチマークであるDrawBench をリリースしました。

実験の結果、DALL·E 2 では 2 つの色要件が同時に現れる状況を正確に理解することが難しいのに対し、Imagen では問題がないことがわかりました。

「宇宙飛行士に乗る馬」のような直感に反する状況では、どちらもパフォーマンスが悪く、描くことができるのは「馬に乗る宇宙飛行士」だけです。

しかし、イマジェン氏の「ラテアートを作るパンダ」の理解はより正確で、間違えたのは一度だけだった。 DALL·E 2はラテアートの柄すべてにパンダが描かれています。

△「宇宙飛行士が馬に乗る」というのはちょっと直感に反するかもしれない(犬の頭)

画像内にテキストを表示する必要がある場合には、Imagen の方が適しています。

テキストを正しく書くという基本に加えて、テキストに花火の効果を正しく追加することもできます。

AIペインティングはますます人気が高まっている

そういえば、AIペインティングはGoogle発祥です。

2015年、Googleはテキストに基づいて画像を生成するAIの先駆者となったDeepDreamをリリースしました。

△DeepDream作品

しかし、関連技術の真のブレークスルーについて言えば、画期的な出来事は2021年のOpenAIのDALL·Eの登場でしょう。

当時、Andrew Ng氏やKerasの生みの親など多くの大物が推進し、好評を博し、DALL·Eは2021年最初のエキサイティングなAI技術のブレークスルーとさえ呼ばれました。

その後、長年にわたる言語理解モデルと画像生成モデルの技術進歩が「AI絵画」の分野で爆発的に広がり、CLIP+GANやCLIP+拡散モデルの一連の研究と応用がインターネット上で頻繁に流行を巻き起こしました。

それ以来、物事は止められなくなり、技術の更新と反復はますます速くなりました。

DALL·E 2 が初めてリリースされたとき、一部のネットユーザーが新しい SOTA が登場するまでにどれくらいの時間がかかるかを尋ねるアンケートを開始しました。

当時は、数か月から1年以上を選択する人がほとんどでした。

しかし今、Imagen はわずか6 週間で登場しました。

AI ペイント効果がますます強力になるにつれて、その視聴者も拡大し、技術界を突破して世間の注目を集めています。

少し前に、AI ペイント アプリが Apple App Store のグラフィックとデザインのランキングでトップになりました。

最近の最新トレンドとしては、あらゆる分野のデザイナーがMidjourneyやTiamatなどの市販製品の内部テストに応募するために列をなしており、それがソーシャルネットワークに溢れている。

これにより、OpenAIやGoogleなどの大企業にも大きなプレッシャーがかかっています。

AI の倫理と公平性を考慮し、DALL·E 2 も Imagen も直接オープンソースではなく、オープン API も備えていません。

彼らはそれぞれ、論文の中でリスクの内容と社会的影響についてもかなりのスペースを割いていました。

OpenAIは内部テストモードを選択しましたが、Googleはさらなる研究と規制を続けており、AIが悪用されないことを確認した後でのみリリースを公開する予定です。

今すぐ Imagen を体験したい場合は、オンライン デモがあります。

与えられたいくつかのプロンプトワードから、さまざまなシーンを自由に組み合わせることができます。

ぜひお試しください〜

デモアドレス:
https://gweb-research-imagen.appspot.com

論文の宛先:
https://gweb-research-imagen.appspot.com/paper.pdf

<<:  DeepMindがMuJoCoをオープンソース化!メタは「スケルトンハンド」にクルミをプレイさせるために使用されます

>>:  インテリジェント運転の「人材不足」は大学の科目ゲームに閉じ込められている

ブログ    
ブログ    
ブログ    

推薦する

...

...

...

説明可能なAI: 4つの主要産業

[[267801]] AI システムがどのように意思決定を行うかを人々が理解できるようにする説明可能...

TCPとUDPの違いと、フロー制御、輻輳制御、高速再送、高速回復アルゴリズムの詳細な説明

[[413351]] UDPとTCPの違い前回の記事では、TCP の接続を確立するための 3 ウェイ...

13 の視覚言語タスクをクリアしましょう!ハルビン工業大学がマルチモーダル大型モデル「九天」をリリース、性能が5%向上

マルチモーダル大規模言語モデルにおける視覚情報抽出が不十分な問題に対処するため、ハルビン工業大学(深...

クイックソートアルゴリズムの実装と最適化

[[385051]]この記事はWeChatの公開アカウント「Beta Learns JAVA」から転...

人工知能はコロナウイルスの流行との戦いにどのように役立つのでしょうか?

新型コロナウイルス感染者数がほぼ指数関数的に増加し、世界は機能停止状態に陥っている。世界保健機関によ...

ドローンによる空中撮影は野生の人々に迷惑をかけている、問題解決の鍵はここにある

[[416193]]近年、民間ドローンの急速な発展に伴い、航空写真撮影市場におけるドローンの応用はま...

GPT-4 は生物兵器を作成できません! OpenAIの最新の実験では、大規模モデルはほぼ0であることが証明されている

GPT-4 は生物兵器の開発を加速させるでしょうか? AIが世界を支配することを心配する前に、人類は...

人工知能市場は2024年までに5,543億ドルに達する

人工知能(AI)市場は急速に成長し、2024年までに5,543億ドルに達すると予想されています。人工...

人工知能と機械学習がもたらす劇的な変化を示す6つの事例

[[219896]]現在、人工知能 (AI) と機械学習 (ML) ほど注目されているテクノロジーは...

ビジョンレーダーは、センサーコンピューティングによる次世代の自動運転システムの重要なコンポーネントです。

[[438879]] 2021年10月25日、テスラの時価総額は1兆ドルを超え、米国株式市場で時価...

スマートビルにはスマートクリーニングが必要な理由

スマートビルへの移行はヨーロッパ全土で加速しています。あらゆる業界の組織が顧客と従業員のエクスペリエ...