AIがテキストを元に「抽象画」を描いたらどうなるでしょうか? |DeepMindの新アルゴリズム

AIがテキストを元に「抽象画」を描いたらどうなるでしょうか? |DeepMindの新アルゴリズム

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI は以前からテキストに基づいて画像を生成することができました。

しかし今、これまでの「リアリズム」とは異なり、AIは「抽象」アートに参入し始めています。

では、早速、「ジャングルの虎」というテキストを入力した AI 絵画をいくつか紹介します。

AIの「芸術細胞」を理解していますか?これは真の抽象絵画の巨匠からどれくらい遠いのでしょうか?

今回AIが生成した画像が、これまで見てきたGANモデルのスタイルと大きく異なるのは、 DeepMindが新しいアルゴリズムを採用したためだ。

このアルゴリズムにより、最終的にはユーザーがテキストの文字列を入力できるようになり、AI はその文字列に対して創造的に反応し、その文字列を解釈した芸術作品を出力できるようになります。

例えば、「クラウド」と入力すると、次のような作品が生成されます。

「顔」、「叫び声」、「猫」、「笑顔」、「燃えている家」、「歩いている男性」、「ジャングルのトラ」、「洞窟壁画」を入力します。

このような驚くべき新しいスキルの背後には、何らかの技術革新があるのでしょうか?

ニューラルビジュアル文法システムとデュアルエンコーダ

一般的に、DeepMind のアルゴリズムは、GAN を使用して画像を生成する場合と 3 つの点で異なります

まず、このアルゴリズムの画像は、バックプロパゲーションを使用して直接生成されるのではなく、「進化」します。

進化的探索を使用すると、独特の「美的出力」を生成でき、出力に対する人間の制御をさらに強化できます。

2 番目に、アルゴリズムは画像を直接進化させるのではなく、画像を生成するための視覚的な文法を進化させます。これにより、興味深い構造化された画像が生成されます。

最後に、このアルゴリズムは、インターネット上の大量の画像とキャプションでトレーニングされた、事前トレーニング済みのマルチモーダル「批評家」を使用します。テキストの視覚的な意味を「理解する」アルゴリズムの能力は重要です。

[[401465]]

画像を進化させるために使用されるニューラル視覚文法システムと、画像の適合性を評価するために使用される画像とテキストのデュアルエンコーダー「批評家」についてさらに詳しく説明しましょう。

ニューラル文法システムは、コアニューラルジェネレーターの機能を大幅に拡張できる階層構造を採用しています。

ユーザー入力文字列を最上位レベルの LSTM に送り込み、各ストロークに中間入力文字列を割り当てます。

この中間入力文字列は、元の入力文字列とほぼ同じように動作します。この中間文字列は、基礎となる LSTM に入力され、最終画像のストロークの説明が出力されます。下の図の通りです。

中間ベクトルの 2 番目の位置などの特定の詳細によって、エンコードされたストロークが不透明か透明かが決まります。

3 番目の位置は、ストロークの原点を決定するために、最上位レイヤーで指定された位置を使用するか、中間レイヤーで指定された位置を使用するかを決定します。

4 番目の位置は、ストロークで生成される線の数を決定します。

判断の役割を果たすためには、画像と文章の類似性を採点するスコアリングメカニズムが必要です。

この目的のために、彼らは Frome のデュアル エンコーダー アプローチを選択しました。このアプローチは、最近、多数のネットワーク データセットで大きな成功を収めています。

デュアル エンコーダー モデルは、それぞれテキストと画像を操作する 2 つのエンコーダーで構成されます。チームは、ALIGN (大きな画像とノイズの多いテキスト) データセットでこれをトレーニングしました。

ビジュアル エンコーダーは NF-Net-F0 モデルに基づいており、224 x 224 解像度の RGB 画像を入力として受け取ります。テキスト エンコーダーは 80M パラメータの因果トランスフォーマーです。

このテキスト エンコーダーは、単語の順序と大文字と小文字の区別を保持し、「Jungle in the Tiger」と「a tiger in the jungle」に対して異なる画像を生成します。

さらに、進化的検索のおかげで、剪定手順を使用して、画像スコア (適応度) に寄与する主要なマーカーを識別することができます。進化のプロセス全体を通して、不要なマークを削除し、画像を可能な限り満足のいくものになるように「調整」することもできます。下の写真は、「リンゴの木」の顕著な剪定を示しています。

さらに改善できる点: 最初のキャンバスは空白である必要はない

では、このような技術にはどのような実用性があるのでしょうか?

チームは、この技術が芸術的創作を支援したり、新しいマーク作成方法を発明したり、その生成プロセスを 3D モデルに適用したりするために使用できると紹介しました。

また、キャンバスの背景の初期状態は空白である必要はありません。写真や既存の画像から始めて、反復ごとに異なるテキストで調整することで、最終的に画像がより階層化された作品に進化させることができます。

もちろん、彼らのアルゴリズムにも改善の余地はあります。生成された画像は驚くようなものになることもありますが、平凡に見えたり、混沌としているように見えることもあります。また、過剰適合によってますます抽象的な作品が生み出されます。

背景色はより豊かに進化しますが、画像の他の側面の多様性も低下します。

現在、このアルゴリズムにはまだいくつかの「偏り」があります。たとえば、「自画像」を生成するように要求された場合、そのほとんどは白人男性の肖像画です。

<<:  業務自動化、中国海外土地投資のデジタル変革体験

>>:  Google はデータセンター向けの次世代地熱エネルギーを開発するために AI を応用している

ブログ    
ブログ    
ブログ    

推薦する

...

AI時代には、ナレッジグラフとナレッジマネジメントの二重の価値を活用する必要がある

[[402551]]ナレッジマネジメントは企業と個人の両方にとって非常に重要です。従来の知識管理は、...

...

Microsoft は GPT-4V マニュアルを作成しました。166 ページに及ぶ完全かつ詳細な説明と、プロンプト ワードのデモ例が含まれています。

マルチモーダルキングボムモデルGPT-4V、 166ページの「取扱説明書」を公開!これは Micro...

...

AIはリモートワークがもたらす企業文化の課題を解決するのに役立つ

2019年、MIT Sloan Management ReviewとGlassdoorが共同でCul...

中国は人工知能チップの開発において「偏り」を持つことはできない

[[269826]] 「設計アーキテクチャだけを見れば、国産の人工知能チップは外国製のものより劣って...

Google、少ないパラメータでテキスト分類を行う新モデル「pQRNN」を発表、BERTに匹敵する性能

最近、Googleは、昨年発表した「PRADO」をさらに改良した小型モデルでSOTA結果を達成した新...

...

カリフォルニア州の自動運転路上試験規則が変更され、軽輸送車両も許可範囲に含まれる可能性がある

現在、多くの自動運転車開発者は米国カリフォルニア州(以下、「カリフォルニア」という)で路上試験を行う...

顔認識を完了するための3行のPythonコード

顔認識パッケージこれは世界で最もシンプルな顔認識ライブラリです。 Python リファレンスまたはコ...

ドローンは将来何ができるのか

ドローンは、専用のリモートコントロールユニットを介して自律飛行できる無人航空機 (UAV) です。コ...

第2回世界情報会議の3つのハイライトを一足先にご紹介

5月16日から18日まで、第2回世界情報会議が天津で開催されます。 「インテリジェント時代:新たな進...

斉燕傑:Sina Weibo のパーソナライズされたプッシュにおける機械学習の応用

[51CTO.comより引用] Sina Weiboは情報交換プラットフォームであるだけでなく、メデ...

...