AIの「心の目」が透けて見える!ニューラルネットワークに大きな変化、モデル生成の背後にあるロジックが初めて明らかに

AIの「心の目」が透けて見える!ニューラルネットワークに大きな変化、モデル生成の背後にあるロジックが初めて明らかに

エイリアンの小さな頭の中で何が起こっているのか、そしてエイリアンは世界をどのように認識しているのか疑問に思ったことはありませんか?

(この質問は非常に抽象的であることは承知しています)

海外のある男性も宇宙人の思考に非常に興味があり、AIの力を使って一連の画像を生成し、「宇宙人の思考モデル」を構築しようとした。

その男のアイデアは非常にシンプルで、エイリアンの心の中のイメージを捉えようとするものでした。

たとえば、従来の生成 AI の場合、「パーティー ハットをかぶった猫」と入力すると、次のような画像が生成される可能性が高くなります。

この画像は私たちが予想していた通りのものです。なぜなら、それを生成した AI は人間の思考に基づいてトレーニングされていたからです。

さて、この男の方法は、AI のニューラル ネットワークの内部構造などのコンポーネントの一部を変更し、ネットワークの各部分の重みをリセットするというものです。生成されたものはエイリアンが望むものに近づくことができるでしょうか?

例えば、いくつかの変更を加えると、下の図のように、どんどん抽象化されていくことがあります。

写真

最終的な画像は単純にランダムであると言えます ― 少なくとも私たちはそう認識しています。

これは実際に、エイリアンの思考が何であるかをさらに探求するためのプラットフォームを提供します。

この人は、これは一種の人工神経科学のようなものだと言ったが、研究されているのは実際の人間の脳ではなく、ニューラルネットワークの類似物だ。

AIで画像を生成する

AIが写真を生成できるのは、何らかのトレーニングを受けており、どのような写真が適切か、写真の内容をどのように判断するかを知っているからです。

つまり、AIは妥当な写真をランダムに生成し、生成された写真の内容をチェックして微調整し、人々が望む写真にゆっくりと変えていくというわけです。

実際のところ、何が合理的であるかに関しては従うべきルールがあります。

何が合理的であるかを定義する規則性がいくつかあります。たとえば、ピクセルはランダムではない、隣接するピクセルは通常高い相関関係にある、顔がある場合は多かれ少なかれ対称的である、画像の上部が青の場合は下部が緑である可能性が高い、などです。

重要な技術的ポイントは、ニューラル ネットワークを使用して画像の規則性を捉え、必要に応じて新しい画像を生成することです。

以下はランダムに生成された例です -

ランダムに見えますが、トレーニングに使用される数十億枚の写真のいくつかのルールに概ね従っています。

つまり、上の写真はランダムで抽象的に見えますが、その中には肖像画や風景画も含まれているのです。実質的な内容がなくても、構造は存在します。

では、パーティーハットをかぶった猫の写真をどうやって撮るのでしょうか?

最初の質問は、成功したかどうかをどうやって知るかということです。

とても簡単ですよね? 生成された画像を確認するだけです。しかし、常に正確であるとは限りませんが、ニューラル ネットワークをトレーニングしてこれを行うことも可能であることがわかりました。

写真

ニューラルネットワークはどのようにトレーニングされるのでしょうか?

基本的な考え方は、数十億枚の画像を取得し、それらにキャプションを付け、対応する画像を受け取ったときにそれらのキャプションを再現できるようにニューラル ネットワークのパラメーターを徐々に調整することです。

ニューラルネットワークは、これまで見たことのない画像に対しても、適切なタイトルを付けることが可能です。つまり、計算によって構築されたニューラルネットワークの行動は、私たち人間の行動とまったく同じなのです。

この機能を使用すると、生成する画像をガイドして、必要な効果を実現できます。

「純粋なランダム性」から始めて、次に「ランダム性を構築」して「合理的な」画像を作成してみてください。言い換えれば、望む画像を得るために段階的に努力するということです。

実際には、このアプローチはランダムなピクセル配列から始まり、目的の画像を繰り返し形成します。

人間の脳内で心的イメージがどのように形成されるのかはわかっていません。しかし、おそらくプロセスはそれほど変わらないでしょう。実際、もっともらしいイメージを想像しようとするとき、私たちはそれが自分の望むものと一致しているかどうかを常に確認しています。

最終的にはすべてがデジタル データとして表現され、それがコンピューティング パラダイム全体の基礎となります。

しかし、ニューラル ネットワークの有効性は、少し異なる考え方に基づいています。つまり、少なくとも多くのものは実数の配列によって特徴付けられると考えられるということです。

最終的には、ニューラル ネットワークから「猫」という単語を抽出し、画像にキャプションを追加できるようになるかもしれません。

しかし、ニューラル ネットワークの内部では、与えられた画像と最終的に生成されるテキストの説明にかなり抽象的な形で対応する数値の配列が処理されます。

一般的に、ニューラル ネットワークは、画像、テキスト、その他の対象に「特徴ベクトル」を関連付けるものとしてよく考えられています。

ただし、「cat」や「dog」などの単語は離散的であり、それらに関連付けられた特徴ベクトルには実数のセットのみが含まれます。

これは、猫と犬が特定の 2 つのポイントに対応する一方で、可能性の空間全体を考慮できることを意味します。

はい、猫以外にも、すぐに奇妙なことが起こる可能性があります。

標準的な猫を通して特定の 2D 平面で何が起こるかを見てみましょう。

標準的な猫はその中間に位置します。標準的な猫の姿勢から離れると、奇妙なことが起こり始めます。

簡単に言えば、遠ければ遠いほど猫に見えなくなります。

ここにあるすべてのものは非常に奇妙で、時には少し不安にさえなります。以下は、標準的な猫の周りの同じ平面(ランダムに選択)で見えるものの拡大バージョンです。

これらは何ですか?ある意味、言葉では表現できないのです。

これらは、人間の経験がまだ私たちを導いていない、そして人間の言語がこれらの絵を記述するためにまだ発達していない、概念間空間の岸辺にあるものです。

たとえば、単にその空間からランダムにサンプリングすることによって、概念間空間をさらに探索したらどうなるでしょうか?

上で見たように、人間がインターネットに投稿する写真のように、ある程度統計的に典型的な写真がいくつか取得され、AI もこれらの写真に基づいてトレーニングされます。

同様の例をいくつか挙げます。

では、人工知能はどのような画像を見て、概念間の空間のモデルを形成したのでしょうか?

インターネットから収集された画像は数十億枚あります。ウェブ上の他のものと同様、これは良い点も悪い点もあります。

以下はランダムなサンプルです:

説明可能な概​​念(パーティーハットをかぶった猫など)から始めるのではなく、概念間の空間のランダムな点から始めるとどうなるでしょうか。次のような状況が見られます。

概念空間のイメージ

概念間の空間にあるイメージの多くは、奇妙な親しみやすさと、どこか異質さを感じさせます。人物のように見える写真もよく見かけますが、何かがおかしいのです。

人間は顔に対して特に敏感なので、顔に何か異常があると認識しやすくなります。

また、顔のない胴体だけの写真は奇妙に見えることがあります。

人間は、これまでのところ、最も一般的な識別可能な要素です。しかし、時には他のものも見えることがあります:

風景タイプのシーンもいくつかあります。

写真の中にはかなりリアルに見えるものもありますが、より抽象的な要素から風景の印象を構築しているものもあります。

たまに街の風景に似た写真もあります:

屋内シーンも少なくなっています。

外観を撮影したような写真もいくつかあります。

線や点、その他の印象派的な要素で作られた画像をよく見かけます。

何かを表現しようとしているように見える画像もたくさんありますが、それが何なのか、実際に人間が認識できるものなのか、それとも本質的に異質なものなのかはまったく不明です。

また、私たちは「純粋なパターン」のように見える作品もよく見かけます。それらは、何かを意図しているのではなく、むしろ何らかの装飾的な質感のように見えます。

ただし、最も一般的なタイプの画像は、さまざまな単純な要素を繰り返して形成される均一なテクスチャですが、通常はさまざまな「ずれ」があります。

概念横断的な空間では、多種多様なイメージが見られます。

多くの画像には、ある種の芸術的品質、つまり、世の中のありふれた物事や、単純で本質的に数学的なパターンに対する、ある種の「精神的解釈」であるという感覚があります。

ある意味、ここでの「心」はニューラル ネットワークに反映された人間の姿であり、人間が Web などに投稿する多くの画像を体験することもできます。

しかし、それはある意味では、ニューラル ネットワークの計算構造によって形作られた、より異質な種類の思考でもあり、いくつかの点では、間違いなく、独自の特異な、計算上は削減不可能な特徴を備えています。

実際、いくつかの繰り返しパターンは、ニューラル ネットワークの根本的な構造的特徴を反映している可能性があります。

たとえば、明暗が交互に現れる「ざらざらした」外観は、ニューラル ネットワークの畳み込み部分の動的な変化の結果である可能性があり、これは、有効ピクセルの特定の範囲にわたって繰り返しぼかしとシャープ化を行った結果に似ています。

考えを奇妙にする

人間のような経験で訓練された心が、それらの経験から一般化することによって何を「想像」できるかを探求する、これまでに行われた研究について考えてみましょう。

しかし、別の人は何を想像するでしょうか?

具体的には、これまで使用してきたニューラル ネットワークに変更を加え、それが生成される画像にどのような影響を与えるかを確認できます。

ネットワークの構築方法については後ほど詳しく説明しますが、391 個の異なる内部モジュールが関係しており、合計で約 10 億個のデジタル重みがあると言っても過言ではありません。

ネットワークがトレーニングされるにつれて、これらの数値の重みは、望ましい結果が得られるように慎重に調整されます。

しかし、単に変更するとどうなるでしょうか?最終的には、画像を生成できるネットワークが実現します。

しかし、ある意味では考え方が違ってくるので、結果として得られるイメージも異なる可能性があります。

そこで、非常に大まかな最初の実験として、連続する各モジュールを順番に「ノックアウト」し、その重みをすべてゼロに設定してみましょう。

ニューラル ネットワークにパーティー ハットをかぶった猫の画像を生成するように指示すると、次の画像が生成されます。

これらの結果をさらに詳しく見てみましょう。

ほとんどの場合、単一のモジュールをゼロにしても大きな違いはありません。たとえば、基本的には猫の表情を変えるだけかもしれません。

しかし、猫(とその帽子)を根本的に変えることもできます。

猫の形や位置を変えることができます (はい、これらの猫の足の形の一部は間違っています)。

他のモジュールをクリアすると、実際に猫の「レンダリング」が変わります。

しかし、他の場合には、状況がはるかに混乱し、解析が困難になる可能性があります。

時々明らかに猫がいるのですが、とても奇妙です。

時々、明確な構造があるのに猫とは何の関係もなさそうな画像が出てくることがあります。

何かが重ね合わされているにもかかわらず、基本的に「ノイズ」だけが表示される場合もあります。

しかし、一部のモジュール (元のリストの最初と最後のモジュールなど) では、ゼロにすると基本的にシステムがまったく動作しなくなり、「純粋なランダム ノイズ」だけが生成されることになります。

以下で説明するように、私たちが使用しているニューラル ネットワーク全体の内部構造はかなり複雑です。たとえば、根本的に異なるタイプのモジュールがいくつかあります。

しかし、ネットワーク内のさまざまな場所にあるモジュールをゼロにした場合に何が起こるかを示す例がここにあります。ほとんどの場合、モジュールの位置とモジュールをゼロにすることによる効果との間には明確な相関関係がないことがわかります。

これまでのところ、一度に 1 つのモジュールをゼロにした場合に何が起こるかを確認しただけです。

以下に、複数のモジュールを連続してゼロにした場合に何が起こるかを示す、ランダムに選択された例をいくつか示します (映画「2001年宇宙の旅」に登場する架空の人工知能 HAL の運命に敬意を表して、これを「HAL 実験」と呼ぶこともできます)。

基本的に、画像内の「猫」が消えると、物事はますます奇妙になり始め、最終的には明らかにランダムになります。

代わりに、モジュール内の重みをゼロにする代わりにランダム化することができますが、結果は通常、少なくとも質的には同じになります。

他にできることは、ネットワーク内のすべての重みにランダム性を徐々に均等に混ぜることです。

以下に 3 つの例を示します。それぞれの場合で、0%、1%、2%、... のランダム性が追加されます。

同様に、ネットワーク内のすべての重みを徐々にゼロまで縮小することができます(1% ずつ増加:100%、99%、98%、...)。

あるいは、重みを徐々に増やしていくこともできます。

<<:  IoTとAIが出会うとき: テクノロジーの未来

>>:  DeepFakeはもう人々を騙せません!米国の大手テクノロジー企業7社が共同でAI生成コンテンツに透かしを追加

ブログ    

推薦する

...

74KBの写真も高解像度です。Googleはニューラルネットワークを使用して新しい画像圧縮アルゴリズムを作成しました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

DingTalk Flutter クロス 4 端末ソリューションの設計と技術実践

この記事では、主にDingTalkがFlutterをベースに構築したクロスクアッドターミナルアプリケ...

MIT が夢を創るマシン「ドリーム インキュベーター」を開発、インセプションの現実版をカスタマイズ

目が覚めているのと眠っているのを同時に経験したことがありますか?実はここは現実と夢を繋ぐ中継駅なので...

宇宙全体が巨大なニューラルネットワークなのだろうか?科学者はこう説明する

[[385301]]核となる考え方は、次のように簡単にまとめることができます。ニューラル ネットワー...

MLOps 向け機械学習設計パターン

著者 | Pier Paolo Ippolito、データ サイエンティスト翻訳者 | 陸新王校正 |...

Metaが新しいモバイルAIジェネレーターを公開、5分でAIアプリを作成、AndroidとiOSの両方をサポート

最近、毎年恒例の PyTorch 開発者会議が開催されました。このカンファレンスでは、Meta(旧F...

...

人工知能の時代では、プログラマーは排除されるのでしょうか?

よく考えてみると、この質問は少し皮肉に思えます。将来、新しいクリエイター (AI) がクリエイター ...

クラッシュラマ2!マイクロソフトの13億パラメータphi-1.5は、単一のA100でトレーニングされ、SOTAを更新します

モデルが大きくなれば機能も増えるのでしょうか?しかし、そうではありません。最近、マイクロソフトの研究...

初心者必読: 5 つの反復レベルから機械学習を理解する

このなぞなぞの答えを推測できますか?機械学習を学べば、どこにでも登場します...プログラマーであれば...

人工知能は人間のキャリアにどのような影響を与えるのでしょうか? 11のトレンド予測はこちら

置き換えられるというよりは、スキルの反復の方が心配です。 2017年は、人工知能が世界中で大きな注目...

自然言語の事前トレーニングを10倍高速化する方法

近年、自然言語処理における事前トレーニングは研究分野でホットな話題となっており、有名なGPT-3も新...

チューリング賞受賞者ジョン・ヘネシー氏:データと機械学習は世界をより良い場所にする

5月26日、チューリング賞受賞者で米国工学アカデミー会員のジョン・ヘネシー氏が、2021年中国国際ビ...