AIビジュアルクロスワードパズルが大ヒット！モンローは180度回転して一瞬でアインシュタインになる。Nvidiaの上級AI科学者：最近最もクールな拡散モデル

AIが描いたマリリン・モンローが180°回転してアインシュタインに？！

これは、最近ソーシャルメディアで話題になっている拡散モデルの錯視絵画です。AI に 2 つの異なるプロンプトセットを与えるだけで、AI が絵を描いてくれます。

まったく異なるオブジェクトも使用できます。たとえば、色を反転すると男性が魔法のように女性に変身できます。

単語を反転させて新しい効果を作成することもできます。1 回の回転で、ハッピーやホリデーなどの効果を作成できます。

これはミシガン大学による新しい「視覚パズル」研究であることが判明しました。論文が発表されるとすぐに、Hacker News で人気となり、人気は 800 近くにまで急上昇しました。

NVIDIA のシニア AI 科学者 Jim Fan 氏は次のように賞賛しています。

これは最近見た中で最もクールな拡散モデルです!

一部のネットユーザーは嘆いた。

これは、フラクタル圧縮に取り組んだときの私の経験を思い出させます。私はいつもそれを純粋な芸術だと考えていました。

ご存知のように、回転、色の反転、変形を経て新しいテーマを表現する絵画を作成するには、画家が色、形、空間について一定の理解を持っている必要があります。

今ではAIでもこのような効果を実現できるようになりました。どのように実現するのでしょうか？実際効果はそんなに良いのでしょうか？

私たちはそれを試し、その背後にある原理も探求しました。

Colabを使って直接試すことができます

このモデルを使用して、正面から見ると山のように見え、背面から見ると都市のスカイラインのように見えるローポリスタイルの絵画のセットを描きました。

同時に、ChatGPT(DALL・E-3)に描画を試みてもらいましたが、結果は明瞭度が増す以外に利点はないように見えました。

作者自身が表現する効果はより豊かで刺激的です。

雪山を90度回転させると馬になり、ダイニングテーブルを角度を変えると滝になります...

最も興味深いのは下の写真です。上下左右の 4 つの角度から見ると、各方向の内容が異なります。

（読者の皆さんにテストです：この 4 匹の動物が何であるかわかりますか？）

ウサギを初期状態として、反時計回りに 90 度回転するたびに、鳥、キリン、テディベアが順番に表示されます。

以下の 2 つの図では、4 つの方向のそれぞれに「新しいコンテンツ」はありませんが、それでも 3 つの異なる方向が作成されます。

回転に加えて、画像をパズルのピースに切り分けて新しいコンテンツに再構成したり、ピクセルレベルまで直接分解したりすることもできます。

画風も多彩で、水彩画、油絵、水墨画、線画など、あらゆるものが揃っています。

では、このモデルはどこでプレイできるのでしょうか?

より多くのネットユーザーがこの新しいおもちゃを体験できるように、著者はColabノートブックを用意しました。

ただし、Colab の T4 の無料版はあまり有能ではなく、V100 ではメモリ制限を超えることがあるため、安定して動作させるには A100 が必要です。

作者自身も、無料版が開発を促進できると感じた人はすぐに知らせてほしいと述べています。

話題に戻ると、コードの最初の行が実行された後、Hugging Face トークンを入力して取得アドレスを指定するように求められます。

同時に、次の手順に進む前に、DeepFloyd プロジェクトページにアクセスしてユーザー契約に同意する必要があります。

準備が完了したら、3 つのコード部分を順番に実行して、環境の展開を完了します。

著者はまだモデルのグラフィカルインターフェイスを設計していないことに注意してください。効果の選択とプロンプトワードの変更には、手動でコードを調整する必要があります。

著者は注釈に 3 つの効果を記載しています。必要な効果を使用する場合は、コメントを解除し (その行の前の # 記号を削除)、使用していない効果を削除またはコメントアウトします (# 記号を追加)。

ここでリストされている 3 つのエフェクトは完全ではありません。他のエフェクトを使用する場合は、コードを手動で置き換えることができます。サポートされている具体的なエフェクトは次のとおりです。

変更後、このコード行を実行すると、プロンプトの単語は同じになります。

変更して実行した後は、生成フェーズに入ることができ、そこで推論ステップ数やガイダンスの強度を変更することもできます。

最初に image_64 関数を実行して小さなイメージを生成し、その後に続くイメージを使用してそれを大きなイメージに変換する必要があることに注意してください。そうしないと、エラーが報告されます。

要約すると、私たちの経験では、このモデルはプロンプト単語に対して比較的高い要件を持っていることがわかりました。

著者もこれを認識し、プロンプトワードに関するヒントをいくつか示しています。

△機械翻訳、参考のみ

それで、研究チームはどのようにしてこれらの効果を達成したのでしょうか?

マルチビュー画像ノイズの「ブレンド」

まず、著者が錯視画像を生成する主な原理を見てみましょう。

異なる視点での異なるプロンプトワードに応じて画像に異なる視覚効果を表現させるために、著者は意図的に「ノイズ平均化」手法を採用し、2 つの視点の画像をさらに融合させました。

簡単に言えば、拡散モデル (DDPM) の核となるのは、トレーニングモデルを通じて画像を「分解して再構築」し、「ノイズマップ」に基づいて新しい画像を生成することです。

したがって、変換前と変換後の異なるプロンプトワードに基づいて異なる画像を生成する場合は、拡散モデルのノイズ除去プロセスを変更する必要があります。

簡単に言えば、元の画像と変換された画像は拡散モデルを使用して「分割」され、「ノイズマップ」が作成され、処理された結果が平均化されて新しい「ノイズマップ」が計算されます。

その後、この新しい「ノイズマップ」に基づいて生成された画像は、変換後に目的の視覚効果を表現できます。

もちろん、この変換の画像処理プロセスは直交変換である必要があり、これは表示効果で見られる回転、変形、断片化、再編成、または色反転操作です。

拡散モデルの選択にも特定の要件があります。

具体的には、この論文では、 DeepFloyd IFを使用して視覚錯覚画像の生成を実現します。

DeepFloyd IF はピクセルベースの拡散モデルです。他の拡散モデルと比較すると、潜在空間やその他の中間表現ではなく、ピクセル空間で直接操作できます。

これにより、画像のローカル情報をより適切に処理できるようになり、特に低解像度の画像を生成するのに役立ちます。

こうすることで、最終的に画像に錯覚効果が現れるようになります。

この方法の有効性を評価するために、著者らは GPT-3.5 に基づいて 50 個の画像変換ペアの独自のデータセットを作成しました。

具体的には、GPT-3.5 に画像スタイル (油絵スタイル、ストリートアートスタイルなど) をランダムに生成させ、次にプロンプトワード (老人と雪山) の 2 セットをランダムに生成し、それをモデルに渡して変換された絵画を生成しました。

以下にランダムな変換をいくつか示します。

次に、CIFAR-10 を使用して、異なるモデル間の画像生成をテストしました。

次に CLIP で評価したところ、変換後の品質は変換前と同じくらい良好であることが示されました。

著者らはまた、この AI が「分解と再構成」に耐えられる画像ブロックの数もテストしました。

分解して再構成した画像は、8×8 から 64×64 までかなり見栄えが良いことがわかりました。

一部のネットユーザーは、この一連の画像変換、特に男性が女性に変わるものに対して深い印象を表明した。

10回くらい観ました。

ネットユーザーの中には、これを芸術作品にして壁に掛けたり、電子インクスクリーンを使ったりすることをすでに考えている人もいる。

しかし、プロの写真家の中には、現段階で AI によって生成された画像はまだ十分ではないと考える人もいる。

よく見てみると、細部が精査に耐えられないことがわかります。鋭い目があれば常に悪いところを見つけることができますが、大衆は気にしません。

さて、AI によって生成されたこの一連の錯視画像についてどう思いますか?他にどこで使用できますか?

<<: AIが材料科学に革命を起こす！ Google DeepMindの新しい研究がNatureに掲載され、一度に220万の新素材を予測した。

>>: GPT-4 はチューリングテストに合格しませんでした。 60年前、古いAIはChatGPTに勝利しましたが、人間の勝率はわずか63％でした。

ブログ

データが増えるほど、AI は賢くなるのでしょうか?私たちはそれを常に当然のこととして受け止めてきました。

ブログ

人工知能が再び警告を発する！研究者は懸念している：将来、研究者が全てを支配することになる

ブログ

顔認識ブームは沈静化すべきでしょうか?

ブログ

なぜAIは東京オリンピックでバレーボールの試合を無料で観戦できるのか？

ブログ

人工知能に関する国家3カ年戦略が発表されました。この8種類の製品が流行るでしょう！

ブログ

AIは奥が深いので、早く田舎へ行きましょう

ブログ

AIが医療業界に参入すると、人間は看護師の仕事を失うのでしょうか？

ブログ

道路が車両を制御することが自動運転の新たな方向性となるのでしょうか?

ブログ

AIビジュアルクロスワードパズルが大ヒット！モンローは180度回転して一瞬でアインシュタインになる。Nvidiaの上級AI科学者：最近最もクールな拡散モデル

Colabを使って直接試すことができます

△機械翻訳、参考のみ

マルチビュー画像ノイズの「ブレンド」

データが増えるほど、AI は賢くなるのでしょうか?私たちはそれを常に当然のこととして受け止めてきました。

人工知能が再び警告を発する！研究者は懸念している：将来、研究者が全てを支配することになる

顔認識ブームは沈静化すべきでしょうか?

なぜAIは東京オリンピックでバレーボールの試合を無料で観戦できるのか？

人工知能に関する国家3カ年戦略が発表されました。この8種類の製品が流行るでしょう！

AIは奥が深いので、早く田舎へ行きましょう

AIが医療業界に参入すると、人間は看護師の仕事を失うのでしょうか？

道路が車両を制御することが自動運転の新たな方向性となるのでしょうか?

推薦する

ディープラーニングフレームワークの競争: TNN vs. MNN、NCNNは依然として定番

AIビデオ分析が業務を強化できる4つの方法

28 歳の中国人 Meta ソフトウェアエンジニアが、次のような理由で年収 37 万ドルの仕事を辞めました...

ハリー・シャムが清華大学の記録を破り、ビデオを通じて任命された史上初の教授となり、説明可能なAIを訴える

MSRAがACM TOMM 2017最優秀論文賞を受賞: 複雑でプロフェッショナルなグラフィックデザイン作業をAIに任せよう

大規模なモデルをグローバルに微調整できないわけではなく、LoRA の方がコスト効率が高いだけです。チュートリアルは準備完了です。

2019年には疑似AIはすべて排除されるのでしょうか？

資本が投資している人工知能は本当に人工知能なのでしょうか？ 3分で機械学習とは何かを理解する

アリババに採用された中国の高レベル科学者がAIがもたらす想像力の空間について語る

ARMの機能によりIBMの包括的なAI自動化ポートフォリオが強化される

2024年にIT業界は成長を遂げる：AIとサイバーセキュリティが最大のホットスポット

中国は人工知能において3つの大きな優位性を持ち、5年後には日本と米国を追い抜くでしょう！