GoogleとOpenAIがマシンビジョンアルゴリズムをより良く研究するための新しいツールを開発

AIの世界はどのようなものになるのでしょうか?研究者たちは何十年もの間、これに困惑してきましたが、近年、機械視覚システムは生活のますます多くの分野で応用されています。しかし、機械の目を通して、歩行者をある道路標識または別の道路標識に分類する理由を理解することは、依然として課題となっています。 Google と OpenAI の新しい研究では、これらのシステムを使用して世界の視覚データを理解することで、AI のブラックボックスをさらに解明することを期待しています。「アクティベーション・アトラス」と呼ばれるこのアプローチにより、研究者はさまざまなアルゴリズムの仕組みを分析することができ、アルゴリズムが認識する抽象的な形、色、パターンだけでなく、それらの要素がどのように組み合わされて特定の物体、動物、シーンが識別されるかを明らかにすることができる。

この研究は必ずしも大きな進歩というわけではないが、特徴可視化研究のより広い分野における前進だ。ジョージア工科大学の博士課程の学生で、この研究には関わっていないランプラサート・セルヴァラジュ氏は、この研究は魅力的で、多くの既存のアイデアを組み合わせて非常に便利な新しいツールを生み出していると語った。

セルヴァラジュ氏は、将来、このような研究はさまざまな用途に使用され、より効率的で高度なアルゴリズムの構築に役立ち、研究者に内部へのアクセスを提供することでアルゴリズムの安全性を向上させ、偏見を排除するだろうと考えています。ニューラルネットワークは、その固有の複雑さのために解釈可能性に欠けていますが、将来、このようなネットワークが自動車の運転やロボットの誘導に日常的に使用されるようになると、解釈可能性が必要になります。

「顕微鏡を作るような感じです」と、このプロジェクトに携わったOpenAIのクリス・オラー氏は言う。「少なくとも、それが私たちの目標です。」

下記のアクティベーションアトラスのインタラクティブバージョンは、distill.pub/activation-atlas/ でご覧いただけます。

アクティベーションアトラスは、研究者が視覚データアルゴリズムを適用して世界を理解するのを可能にします

ニューロンの活性化

アクティベーションアトラスやその他の機能視覚化ツールがどのように機能するかを理解するには、まず AI システムがオブジェクトを認識する方法について少し理解しておくと役立ちます。

これを実現する基本的な方法は、ニューラルネットワークを使用することです。ニューラルネットワークは、人間の脳とほぼ同様のコンピューティング構造です (ただし、複雑さの点では数年遅れています)。各ニューラルネットワーク内には、メッシュのように接続された人工ニューロンの層があります。脳の細胞と同様に、これらの細胞は刺激に反応し、活性化と呼ばれるプロセスを実行します。重要なのは、これらを単にオンまたはオフにするのではなく、スペクトルに登録して、各アクティベーションに特定の値または重みを割り当てることです。

ニューラルネットワークを有用なものにするには、大量のトレーニングデータを提供する必要があります。視覚アルゴリズムの場合、これはそれぞれ特定のカテゴリでラベル付けされた数十万、あるいは数百万枚の画像を意味します。 GoogleとOpenAIの研究者がこの研究のためにテストしたニューラルネットワークの場合、それらのカテゴリーはウールからウィンザータイ、シートベルトからスペースヒーターまで多岐にわたりました。

ニューラルネットワークは、接続された人工ニューロンの複数の層を使用してデータを処理します。異なるニューロンが画像の異なる部分に反応する

このデータを入力すると、ニューラルネットワーク内のさまざまなニューロンが各画像に反応して点灯します。このパターンは画像のラベルに接続されており、この関連付けにより、ネットワークは物体の外観を学習できます。一度トレーニングすると、ネットワークにこれまで見たことのない画像を見せることができ、ニューロンが発火して、入力を特定のカテゴリに一致させます。

これらすべてが不安に聞こえるとしたら、それは多くの点でその通りだからです。多くの機械学習プログラムと同様に、ビジョンアルゴリズムは本質的には単なるパターンマッチングマシンです。これにより、特定の利点が得られます (必要なデータと計算能力があれば、トレーニングが簡単であるなど)。しかし、これには一定の弱点もあります (これまで見たことのない入力によって簡単に混乱する可能性があります)。

研究者たちは、2010 年代初頭に視覚タスクにおけるニューラルネットワークの可能性を発見して以来、それがどのように実現されるかを解明しようと努めてきました。

初期の実験の1つは、2015年にリリースされたコンピュータービジョンプログラム「DeepDream」で、あらゆる画像を幻覚バージョンに変えるものでした。 DeepDream のビジュアルは確かに興味深いものでした (ある意味では、AI の美学を定義するものとなりました) が、このプログラムはアルゴリズム的思考の初期の試みでもありました。ある意味、すべては DeepDream から始まりました。

その後の研究では、同じ基本的なアプローチを採用し、それを微調整しました。まず、ネットワーク内の個々のニューロンを対象にして、何がそれらを発火させたかを調べ、次にニューロンのグループ、そしてネットワークの異なる層にあるニューロンの組み合わせを対象にしました。初期の実験が、ニュートンが視覚を理解するために鈍い針で自分の目を突いたように、偶然ではなく集中的なものであったとすれば、最近の研究は、ニュートンがプリズムを光線に向けたのと似ており、つまり、より的を絞ったものとなっている。神経ネットワークの各部分で活性化された視覚要素を何度もマッピングすることで、最終的に脳の視覚的なインデックスであるアトラスが得られます。

アクティブアトラスを拡大・縮小する

マシンビュー

しかし、アクティベーションアトラスはアルゴリズムの内部の仕組みについて具体的に何を教えてくれるのでしょうか?ここでは、有名なニューラルネットワーク GoogLeNet や InceptionV1 の内部構造を解明するために使用される Google と OpenAI の例から始めることができます。

スクロールすると、ネットワークのさまざまな部分がさまざまな概念にどのように反応するか、またそれらの概念がどのように集まっているかがわかります。たとえば、犬はある場所にいて、鳥は別の場所にいます。また、ネットワークのさまざまなレイヤーがさまざまなタイプの情報をどのように表しているかを確認することもできます。下位レベルではより抽象的で基本的な幾何学的形状に対応しますが、上位レベルではそれらを認識可能な概念に分解します。

個々のカテゴリーを掘り下げてみると、本当に興味深いです。 Google と OpenAI が挙げた例の 1 つは、「シュノーケラー」と「スキューバダイバー」のカテゴリの区別です。

下の図では、ニューラルネットワークがこれらのラベルを認識するために使用するさまざまなアクティベーションを確認できます。左側は「シュノーケラー」と強く関連付けられるアクティベーションであり、右側は「スキューバダイバー」と強く関連付けられるアクティベーションです。中央のアクティベーションは 2 つのクラス間で共有されますが、ストライプ上のアクティベーションはより差別化されています。

シュノーケラー（左）とスキューバダイバー（右）に関連するアクティベーション

一目見ただけで、明らかな色や模様がわかります。上部には鮮やかな色の魚のような斑点や縞模様があり、下部にはマスクのような形があります。しかし、右側に強調表示されているのは、機関車と密接に関連する珍しいアクティベーションです。研究者たちはこれを発見したとき困惑した。機関車に関するこの視覚情報は、スキューバダイバーを識別するためになぜ重要なのでしょうか?

「それで私たちはテストしてこう言いました。『蒸気機関車の写真を入れたら、分類がシュノーケラーからスキューバダイバーに切り替わるだろうか？』そして実際に切り替わったのです。」

同じ画像を再分類する方法を示す 3 つの画像。左側では、シュノーケラーとして識別されます。中央では、機関車が大きくなるにつれて、スキューバダイバーになります。機関車が十分に大きくなると、分類全体を引き継ぎます。

チームは最終的にその理由を突き止めました。それは、機関車の滑らかな金属の曲線が、視覚的にダイバーの空気タンクに似ているからでした。したがって、ニューラルネットワークにとって、これはシュノーケラーとスキューバダイバーの明確な違いです。 2 つのカテゴリを区別する時間を節約するために、必要な識別用の視覚データを他の場所から借用するだけです。

この種の例は、ニューラルネットワークがどのように動作するかについての魔法のような事実を明らかにします。懐疑論者にとっては、これはこれらのシステムの限界を示しています。視覚アルゴリズムは効果的かもしれないが、それが学習する情報は実際には人間が世界を理解する方法とは無関係であると彼らは言う。これにより、特定の悪質な行為に対して脆弱になります。たとえば、画像に慎重に選択したピクセルをいくつか追加するだけで、アルゴリズムが画像を誤分類する可能性があります。

しかし研究者にとって、アクティベーションアトラスや類似のツールによって明らかにされた情報は、これらのアルゴリズムの驚くべき深さと柔軟性を示しています。例えば、アルゴリズムがシュノーケリングをする人とスキューバダイバーを区別するために、それぞれのカテゴリーに異なる種類の動物を関連付けることもカーター氏は指摘した。

「カメのように深海に生息する動物はスキューバタンクで呼吸しますが、鳥のように水面に生息する動物はシュノーケルで呼吸します。」これはシステムが直接学習することのない情報だと彼は指摘する。代わりに、それは自分自身でそれを見つけました。それは世界に対するより深い理解のようなものです。

オラー氏も同意し、「高解像度の地図帳を見て、これらのネットワークが表現できる空間の広大さを目の当たりにすると、畏敬の念を抱くほどです」と語った。

彼らは、このようなツールを開発することで、AI 分野全体の進歩に貢献できると期待しています。マシンビジョンシステムが世界をどのように見ているかを理解することで、理論的にはシステムを効率的に構築し、その精度をより徹底的にチェックできるようになります。

<<: 2019 年の AI、セキュリティ、IT 運用、IoT に関する主な予測

>>: オープンAI音声アシスタントMycroftでプライバシーを確保

これはボストンダイナミクスのロボット犬の父親でしょうか？米陸軍の1980年代のロボット犬「考古学」

GoogleとOpenAIがマシンビジョンアルゴリズムをより良く研究するための新しいツールを開発

これはボストンダイナミクスのロボット犬の父親でしょうか？米陸軍の1980年代のロボット犬「考古学」

ルカン氏は、今後10年間の研究計画に関する62ページの論文を発表した。AI自律知能

人工知能はいつか本当に人間の教師に取って代わることができるのでしょうか?

UiPath、業界初のエンドツーエンドのハイパーオートメーションプラットフォームを発表

3分レビュー！ 2021年10月のロボット資金調達の概要

あなたはまだこれらの仕事をしていますか？マシンビジョンと人工知能により、今後10年間で失業することになるかもしれません

チューリング賞受賞者ジョン・ヘネシー氏：データと機械学習は世界をより良い場所にする

推薦する

ガートナー: 2019 年新興テクノロジーハイプサイクル

海外メディア：ニューラリンクの「人間の脳チップ」を埋め込むために何千人もの人が列をなしており、2030年には手術件数が2万2000件を超える見込み

AIアルゴリズムから製品実装までの8つのギャップを数える

3億7500万人の労働者が転職する？人工知能が代替できない分野はどれですか?

ニューラルネットワークのデバッグは難しすぎる。6つの実用的なヒントをご紹介します

ロボットにとっては、這う方が移動には良い方法かもしれない

クラウドAI市場は2028年までに2,700億ドルに達すると予想

Google Chinaのエンジニアは破壊的なアルゴリズムモデルを提案し、Waymoはそれをテストして予測精度を向上させた。

国内の多くの大学が共同でオープンソースコミュニティLAMMを構築しています。マルチモーダル言語モデルファミリーに参加する時が来ました

映画はヒットできるでしょうか？機械学習を使用して正確な予測を行う