この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 さて、AI にフレーズと 50 個の三角形を与えると、ミニマリストの抽象画を作成できます。 「猫の絵」と入力するだけで、角張ったクールな抽象的な猫が生成されます。 この一般的な概念だけでなく、特定の語彙が与えられれば、この AI は絵画を指定することもできます。 例えば、「ウォルト・ディズニー・ワールド」と入力すると、50 個の三角形が即座に再配置され、まったく異なるスタイルのディズニー城の抽象バージョンが目の前に現れます。 まさにディズニーキャッスルの真髄を捉えていると言えるでしょう。 上記の「傑作」はすべて、実際には進化戦略(ES) とCLIPの組み合わせによって生成された結果であり、Google Brain チームによって制作されています。 彼らは2つのAIを連携させ、テキストプロンプトと特定の画像に基づいて、多数の三角形を使用して一連の特徴的な抽象画を作成しました。 抽象化された Google ビルは次のようになります。 それらは互いに無関係であるとは言えませんが、全く同じであるとしか言えません。 今回は、本当にポストモダンアートの雰囲気が少しあります。 三角形のみで描かれた抽象画生成された効果から、ES アルゴリズム + CLIP が実際に多数のランダムな三角形を再配置し、サイズ、位置、色を調整することで、指定された語彙に一致するイメージに徐々に構築していることがわかります。 具体的には、最初に、ES アルゴリズムは三角形の座標と RGBA 値をパラメーターとして使用し、キャンバス上にいくつかの三角形をランダムに割り当てます。 進化戦略(ES) アルゴリズムの原理は進化理論に似ています。与えられた情報に基づいて、最適なソリューションが得られるまで継続的に最適化することができます。 CLIP は、OpenAI によって開発された、画像の並べ替えを担当するモデルです。 ES アルゴリズムによって与えられた三角形の画像とテキストの説明の類似性をスコア化し、その結果を ES アルゴリズムにフィードバックします。ES アルゴリズムは繰り返し処理を行ってスコアを改善し、最終的に芸術的な絵画を完成させます。 テキストによる指示だけでなく、初期情報として画像を与え、ES アルゴリズムのみを使用して描画することもできます。 50 個の三角形を使用し、10,000 回繰り返した後、モナリザのポストモダン抽象バージョンが誕生しました。 三角形をさらに追加すると、アルゴリズムはより良い結果をもたらします。 以下の比較では、三角形の数が 200 に達すると、生成された画像にすぐに多くの詳細が追加されます。 ダーウィンとモナリザの場合、適応度はほぼ100%に達しました。 さらに、より良い結果を得るために、研究者らはClipUp オプティマイザーも採用しました。 比較すると、オプティマイザーを使用した10,000回の反復後の効果は、基本アルゴリズムの560,000回の反復後の効果よりも優れていることがわかります。 同時に、グラデーションベースのレンダリング方法と比較して、ES アルゴリズムのパフォーマンスも顕著です。 レンダリング方法はテクスチャと色の改良に重点を置きますが、ES アルゴリズムはこれらの三角形をどのようにレイアウトするかに重点を置きます。 では、テキストによる指示を与えるとどのような効果があるのでしょうか? 「自分」、「人間」、「ウォルト・ディズニー・ワールド」の場合でも、アルゴリズムのパフォーマンスは非常に良好でした。 三角形の数が増えるにつれて、アルゴリズムはキーワードテーマの本質を捉えながら、より詳細な結果を生成します。 しかし、「東京の写真」の場合、それほど良い結果は出ません。 研究者たちは、これはアルゴリズムが暗い影のある三角形を生成するのが難しいためだと考えている。 さらに、命題割り当てに直面した場合、アルゴリズムは異なる答えを出そうとします。 これらのケースの 4 つの繰り返しテストでは、生成された画像に明らかな違いがあることがわかります。 デモ版はお試しいただけます実は、CLIP が他の AI にペイントを「指示」したのはこれが初めてではありません。 以前はGANと連携することで、画像をCGアートスタイルに変換していました。 実は今回も抽象画効果を体験できます。 チームはコードをオープンソース化しており、Colab で試すことができます (リンクは記事の最後に添付されています)。 これはネットユーザーがアップロードした画像です。効果は実に素晴らしいです。これが誰だかわかりますか? 論文リンク: GitHub オープンソース アドレス: トライアルリンク: |
<<: リザーブプールコンピューティングにおける新たなブレークスルー:ニューロン数が少なくなり、コンピューティング速度が最大100万倍に高速化
1. ユーザー操作とは何ですか?ユーザーオペレーションとは、ユーザーのライフサイクル全体を踏まえた管...
1. 機械学習の定義機械学習はコンピュータサイエンスのサブフィールドであり、人工知能の分野および実装...
年末から年始にかけて、ビッグモデルの過去を振り返り、ビッグモデルの未来に期待してみましょう。 28日...
羊年春節期間中のWeChat紅包の人気は明らかで、広告主は現金紅包に5億円を投入し、CCTVの羊年春...
昨日、Meta は Llama 2 の無料商用バージョンをリリースし、再びオープンソース コミュニテ...
ビッグデータや人工知能などのテクノロジーがもたらす機会と脅威、そしてその将来に対する懸念については、...
「自動化」の本質的な意味は変わりませんが、その用語の使用法は時間の経過とともに確実に変化してきました...
近年の人工知能の急速な発展は主にニューラルネットワークモデルによるものですが、モデルが大規模かつ複雑...
7月24日、Appleは社内で従業員の業務を支援するためにチャットボットを使用しており、将来的には顧...
[[373550]]人工知能は、都市をよりスマートで効率的な仕事と生活の場へと変革する道を開きます。...
[51CTO.comよりオリジナル記事] 6月21日、WOT2019グローバル人工知能技術サミット...
AIの発展には基礎教育を強化しなければ手遅れになります。大規模モデル技術が急速に発展し、企業間の競争...