Google はなぜいつも AI に芸術を強制するのでしょうか?

Google の人工知能といえば、チェスマシンの AlphaGo や Waymo の自動運転車を思い浮かべる人がほとんどでしょう。しかし、私に言わせれば、Google は人工知能に絵を描くことを教えることに特別な執着を持っているように思える。

今年、Google は、簡単なスケッチを描くのに役立つ Autodraw というツールをリリースしました。数本の線を描くだけで、アルゴリズムが描きたいパターンを認識し、最適化してくれます。実は、これは Google が立ち上げた最初の AI + ペインティングプロジェクトではありません。2015 年にはすでに、Google はアルゴリズムを使用して、芸術に対する人間の理解と美学に挑戦してきました。

DeepDream: 深い夢か悪夢か?

Google には DeepMind だけでなく、ディープラーニング技術を使用して画像を認識し、解釈した画像を表示する DeepDream もあります。その後、Google はこのプロジェクトを一般に公開し、誰もが写真をアップロードして DeepDream によって解釈された結果を再現できるようにしました。

トレーニング中に目や子犬の画像を多用したせいか分かりませんが、基本的にDeepDreamで処理した画像はこんな感じです…

[[204287]]

犬の顔や目、奇妙な渦巻き模様が描かれており、不思議で魔法のような雰囲気があります。 Google は DeepDream の展示会も開催し、展示された作品のうち 6 点がコレクターに購入され、1 点あたりの価格は 8,000 ドルにも上りました。これは「芸術」を通じてお金を稼ぐ最初の人工知能かもしれない。

実際、Google DeepDream が本当に理解したいのは、ニューラルネットワークブラックボックスの動作ロジックです。ニューラルネットワークが画像を認識する場合、レイヤーの数が多いほど、画像の詳細度が高くなることは誰もが知っています。ニューラルネットワークの最上位レイヤーは輪郭を認識し、ニューラルネットワークの中間レイヤーはテクスチャ、ブラシストローク、その他の詳細を認識します。これまで見てきた画像を正しく認識できるアルゴリズムは、すべて手動でデバッグされていましたが、DeepDreamは手動の誘導や修正のステップを省き、自らの意志で直接画像を認識します。これを何度か繰り返して、最終的に今見ているものになります。

上の写真のように、木を建物として、植物を鳥として見るように求められた場合、私たちにできるのは想像力を使うことだけです。人間の目では認識できないパターンを機械が認識するという状況は、私たちに機械視覚と人間の視覚の違いについて改めて考えさせてくれます。おそらく、DeepDream は、人間界のすべてを自分のかわいいペットの犬とみなす、超想像力を持った幼い人工知能なのでしょう。

早く、描け！ AIと一緒に「You Draw, I Guess」をプレイしましょう

すぐに、Google は AI に犬の顔を描かせるという以上のことを始めました。昨年、Google は「Quick, Draw!」という描画アプリをリリースしました。 Quick, Draw! は、実際には人間と人工知能の間で行われる「あなたが描いて、私が推測する」ゲームです。システムは名詞をランダムに表示し、ユーザーは 20 秒以内にそれを描く必要があります。ユーザーがマウスでオブジェクトの形を描くだけで、Quick, Draw! は描画がタイトルに似ているかどうかを判断し、タイトル以外に描画が似ているものを表示します。

[[204289]]

明らかに、これはデータを収集するための優れた方法です。わずか半年で、100 か国 2,000 万人のユーザーが Quick, Draw! で合計 8 億点の落書きを描きました。 Google はまた、これらのデータはさまざまな文化的背景や概念を反映していると述べました。たとえば、国によって椅子の描き方は異なります。椅子を常に横から描く国もあれば、正面から描く国もあります。現在、Google はそのデータの一部をすべての開発者が利用できるように公開しています。

Autodraw: 人工知能グラフィティマスター

冒頭で触れたオートドローとは、クイックドロー！のことです。データ調査の結果は、Google の強力な機械学習技術も実証しています。

Autodraw は、描いているものを認識するだけではありません。未完成の落書きを完成させたり、間違いを修正したりすることもできます。たとえば、目が 3 つある猫を描いた場合、Autodraw は目のうち 1 つを削除します。

これは、Autodraw がすでに抽象的思考と呼ばれる機能を備えていることを意味します。Autodraw は、単に履歴データに従って描画の線を配置するだけでなく、目の概念を「認識」し、猫には目が 2 つしかないことを認識しています。

Autodraw の背後には人工知能システム SketchRNN があります。クイックドローの時は！ウェブ上で描画すると、SketchRNN は各ストロークの形状と順序を記憶し、特定のオブジェクト (猫、椅子など) ごとにニューラルネットワークをトレーニングします。

人間の落書きのストロークが入力として使用され、シーケンスのエンコードが実行され、人間の描き方を使用してニューラルネットワークがトレーニングされます。このトレーニングを完了すると、SketchRNN は特定のパターンを描く際の「一般的なルール」を理解します。

たとえば、猫を描くときは、丸い顔、2 つの尖った耳、2 つの目、6 本のひげを描きます。 SketchRNN は、大きな円、2 つの小さな円、6 本の線、2 つの鋭い角が「猫」を構成することを理解できます。次に、SketchRNN がランダム性を出力および受け入れることができるように、変数を導入します。たとえば、猫の顔の丸みは丸くなく、ひげの長さもさまざまです。しかし、3つの目の誤差は変数フローティングの範囲を超えているため、SketchRNNによって修正されます。

上の写真のように、これも車です。模様の色が暖色系になるほどランダム性が増します。これらはすべてSketchRNNの作品です。

SketchRNN は素晴らしいですが、この技術はあまり実用的ではないと考える人も多くいます。 SketchRNN がグラフィックを認識し、さらには作成できるのは、チームが各パターンに対してニューラルネットワークをトレーニングしたためです。これらを実現するには、Quick, Draw が不可欠です。収集される膨大な量のデータは、TensorFlow の強力な計算能力と切り離すことはできません。しかし、これほど多くのリソースを動員した後でも、SketchRNN の適用範囲は依然として落書きに限られています。「ストローク」のロジックに限定されていれば、将来的には書道でも違いを生み出すことができるかもしれません。ただし、効率が依然として文字ごとにニューラルネットワークを構築することにとどまっている場合、費用対効果が低すぎます。

[[204292]]

しかし、別の意見を唱える人もいます。一部の学者は、「ストローク」は世界中で共通のコミュニケーション手段であると考えています。象形文字や壁画のような線は、人間の脳に自然な刺激を与えます。人間の芸術的創造はますます具体的になってきており、脳と思考の進化の可能性を示しているのかもしれません。この論理によれば、SketchRNN は私たちが以前の考え方を取り戻し、将来、考古学、歴史学、人類学などの分野でよりよい研究を行うのに役立つ可能性があります。

<<: ディープラーニング時代の物体検出アルゴリズムのレビュー

>>: ベイズの定理から確率分布へ:確率論の基本定義の復習

Google はなぜいつも AI に芸術を強制するのでしょうか?

記憶は人工知能開発の重要な側面を示している

Google 検索と競合する FRESHLLM は、より少ない幻想とより正確な情報で「最新の出来事」を把握しています。

AI画像認識は無関係？ Google AI: 段階的なトレーニングセットで画像の説明精度を向上

「成熟した」大型モデルが登場したときだけでしょうか? MIT: GPT-4はコードを自己修正できるが、GPT-3.5はできない

不確実な環境で自動運転を実現するにはどうすればよいでしょうか?

企業は生成 AI のリスクをどのように管理できるでしょうか?

ランウェイの最強のライバルが登場、ワンクリックでショートビデオを生成、期間限定で無料

2023年に開発者が知っておくべき6つのAIツール

推薦する

スタンフォード大学は4年連続でAIレポートを発表しています。今年はどんな内容が取り上げられたのでしょうか？

1月に8万人以上の従業員が解雇されました！世界のテクノロジー業界のレイオフリストが発表されました。企業が大きいほど、レイオフする人数も多くなります。X社は従業員の半数を一気にレイオフしました！

ハッシュアルゴリズムを使用した ASP.NET データ暗号化

ほんの数行の Python コードで、将来の子供がどのような外見になるかを予測できますか?強力な人工知能

人工知能は改めてすごいですね！科学者は偶然、死者を「蘇らせる」ことができることを発見した

Googleとハーバード大学がこれまでで最も複雑な3D脳マップを作成

日常のセキュリティ運用におけるChatGPTの実装

Zookeeper の選出アルゴリズムとスプリットブレイン問題の詳細な説明

人工知能ロボットの開発にはどのプログラミング言語を選択すればよいでしょうか?

Meizu が従来の携帯電話の新プロジェクトを中止し、AI に転換; 周紅一: Sora は TikTok に勝てない; BMW がデータ漏洩を認める; Sora の動画で多くのミスが明らかに | T ニュース

モノのインターネットはスマートな衛生設備を創り出し、都市環境の衛生を細かく管理します