AIがテキストを元に「抽象画」を描いたらどうなるでしょうか? |DeepMindの新アルゴリズム

AIがテキストを元に「抽象画」を描いたらどうなるでしょうか? |DeepMindの新アルゴリズム

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI は以前からテキストに基づいて画像を生成することができました。

しかし今、これまでの「リアリズム」とは異なり、AIは「抽象」アートに参入し始めています。

では、早速、「ジャングルの虎」というテキストを入力した AI 絵画をいくつか紹介します。

AIの「芸術細胞」を理解していますか?これは真の抽象絵画の巨匠からどれくらい遠いのでしょうか?

今回AIが生成した画像が、これまで見てきたGANモデルのスタイルと大きく異なるのは、 DeepMindが新しいアルゴリズムを採用したためだ。

このアルゴリズムにより、最終的にはユーザーがテキストの文字列を入力できるようになり、AI はその文字列に対して創造的に反応し、その文字列を解釈した芸術作品を出力できるようになります。

例えば、「クラウド」と入力すると、次のような作品が生成されます。

「顔」、「叫び声」、「猫」、「笑顔」、「燃えている家」、「歩いている男性」、「ジャングルのトラ」、「洞窟壁画」を入力します。

このような驚くべき新しいスキルの背後には、何らかの技術革新があるのでしょうか?

ニューラルビジュアル文法システムとデュアルエンコーダ

一般的に、DeepMind のアルゴリズムは、GAN を使用して画像を生成する場合と 3 つの点で異なります

まず、このアルゴリズムの画像は、バックプロパゲーションを使用して直接生成されるのではなく、「進化」します。

進化的探索を使用すると、独特の「美的出力」を生成でき、出力に対する人間の制御をさらに強化できます。

2 番目に、アルゴリズムは画像を直接進化させるのではなく、画像を生成するための視覚的な文法を進化させます。これにより、興味深い構造化された画像が生成されます。

最後に、このアルゴリズムは、インターネット上の大量の画像とキャプションでトレーニングされた、事前トレーニング済みのマルチモーダル「批評家」を使用します。テキストの視覚的な意味を「理解する」アルゴリズムの能力は重要です。

[[401465]]

画像を進化させるために使用されるニューラル視覚文法システムと、画像の適合性を評価するために使用される画像とテキストのデュアルエンコーダー「批評家」についてさらに詳しく説明しましょう。

ニューラル文法システムは、コアニューラルジェネレーターの機能を大幅に拡張できる階層構造を採用しています。

ユーザー入力文字列を最上位レベルの LSTM に送り込み、各ストロークに中間入力文字列を割り当てます。

この中間入力文字列は、元の入力文字列とほぼ同じように動作します。この中間文字列は、基礎となる LSTM に入力され、最終画像のストロークの説明が出力されます。下の図の通りです。

中間ベクトルの 2 番目の位置などの特定の詳細によって、エンコードされたストロークが不透明か透明かが決まります。

3 番目の位置は、ストロークの原点を決定するために、最上位レイヤーで指定された位置を使用するか、中間レイヤーで指定された位置を使用するかを決定します。

4 番目の位置は、ストロークで生成される線の数を決定します。

判断の役割を果たすためには、画像と文章の類似性を採点するスコアリングメカニズムが必要です。

この目的のために、彼らは Frome のデュアル エンコーダー アプローチを選択しました。このアプローチは、最近、多数のネットワーク データセットで大きな成功を収めています。

デュアル エンコーダー モデルは、それぞれテキストと画像を操作する 2 つのエンコーダーで構成されます。チームは、ALIGN (大きな画像とノイズの多いテキスト) データセットでこれをトレーニングしました。

ビジュアル エンコーダーは NF-Net-F0 モデルに基づいており、224 x 224 解像度の RGB 画像を入力として受け取ります。テキスト エンコーダーは 80M パラメータの因果トランスフォーマーです。

このテキスト エンコーダーは、単語の順序と大文字と小文字の区別を保持し、「Jungle in the Tiger」と「a tiger in the jungle」に対して異なる画像を生成します。

さらに、進化的検索のおかげで、剪定手順を使用して、画像スコア (適応度) に寄与する主要なマーカーを識別することができます。進化のプロセス全体を通して、不要なマークを削除し、画像を可能な限り満足のいくものになるように「調整」することもできます。下の写真は、「リンゴの木」の顕著な剪定を示しています。

さらに改善できる点: 最初のキャンバスは空白である必要はない

では、このような技術にはどのような実用性があるのでしょうか?

チームは、この技術が芸術的創作を支援したり、新しいマーク作成方法を発明したり、その生成プロセスを 3D モデルに適用したりするために使用できると紹介しました。

また、キャンバスの背景の初期状態は空白である必要はありません。写真や既存の画像から始めて、反復ごとに異なるテキストで調整することで、最終的に画像がより階層化された作品に進化させることができます。

もちろん、彼らのアルゴリズムにも改善の余地はあります。生成された画像は驚くようなものになることもありますが、平凡に見えたり、混沌としているように見えることもあります。また、過剰適合によってますます抽象的な作品が生み出されます。

背景色はより豊かに進化しますが、画像の他の側面の多様性も低下します。

現在、このアルゴリズムにはまだいくつかの「偏り」があります。たとえば、「自画像」を生成するように要求された場合、そのほとんどは白人男性の肖像画です。

<<:  業務自動化、中国海外土地投資のデジタル変革体験

>>:  Google はデータセンター向けの次世代地熱エネルギーを開発するために AI を応用している

ブログ    
ブログ    
ブログ    

推薦する

人工知能産業の急速な発展の背後にある4つの大きな無駄

[[258526]]過去7年間、中国のプライベートエクイティ投資市場における人工知能分野への投資額は...

新型コロナウイルス感染症の流行中に音声テクノロジーが再び注目を集めているのはなぜでしょうか?

新型コロナウイルスの世界的大流行により、各国で厳しいロックダウン措置が取られ、多くの人が外出を控えざ...

Baidu Create 2018 ディープラーニング フロンティア テクノロジーと産業応用公開コースのハイライト

[51CTO.com からのオリジナル記事] 中国の開発者が集まる毎年恒例の盛大な集まりである Ba...

顔認識技術の新たな進歩:自閉症やADHDを検出できる

[[187357]]顔の表情や頭の動きから自閉症やADHDの患者を識別できる新しいコンピューターアル...

2019年の人工知能の予測と展望

2019 年に人工知能の分野はどのように進化するでしょうか? 過去数年と比べてどのように変化するでし...

...

Amazon Web Services は、5 つのステップで企業の生成 AI の実現を支援します。

アマゾンのCEO、アンディ・ジャシー氏はかつて、アマゾン ウェブ サービスの目標は、誰もが大企業と同...

データセットに適したクラスタリングアルゴリズムを選択する方法

クラスタリング アルゴリズムを適用するのは、最適なアルゴリズムを選択するよりもはるかに簡単です。 そ...

人工知能は建設ロボットを誇大広告から現実のものへと変える

ロボットが建設業界で重要な役割を果たすことは間違いありませんが、マッキンゼーのレポートによると、プロ...

...

若者は人工知能とうまく付き合うことを学ぶべきだ

人工知能技術と他の技術の最大の違いは、人間の頭脳労働の一部を代替できるだけでなく、一部の分野では人間...

なぜ人工知能はテクノロジーの未来なのか?

人類の知恵はさまざまな文明を生み出してきました。人間の知能はさまざまな形態の人工知能を通じて強化する...

KMPアルゴリズムを最初から最後まで徹底的に理解できるように指導します

[[121931]]この記事の参考文献: Li Yunqing 他著「データ構造 (C 言語版)」、...

ウクライナ国防省がAI認識技術を採用、Clearview AIが再び疑問視される

イベント紹介ロイター通信によると、ウクライナ政府省庁は土曜日、クリアビューAIの顔認識技術の使用を開...

銀行業界の「退化」の原因は人工知能なのか?

公開データによると、商業銀行は2021年も支店の閉鎖を続けた。11月までに商業銀行は2,100以上の...