GoogleとOpenAIがマシンビジョンアルゴリズムをより良く研究するための新しいツールを開発

GoogleとOpenAIがマシンビジョンアルゴリズムをより良く研究するための新しいツールを開発

AIの世界はどのようなものになるのでしょうか?研究者たちは何十年もの間、これに困惑してきましたが、近年、機械視覚システムは生活のますます多くの分野で応用されています。しかし、機械の目を通して、歩行者をある道路標識または別の道路標識に分類する理由を理解することは、依然として課題となっています。 Google と OpenAI の新しい研究では、これらのシステムを使用して世界の視覚データを理解することで、AI のブラックボックスをさらに解明することを期待しています。 「アクティベーション・アトラス」と呼ばれるこのアプローチにより、研究者はさまざまなアルゴリズムの仕組みを分析することができ、アルゴリズムが認識する抽象的な形、色、パターンだけでなく、それらの要素がどのように組み合わされて特定の物体、動物、シーンが識別されるかを明らかにすることができる。

この研究は必ずしも大きな進歩というわけではないが、特徴可視化研究のより広い分野における前進だ。ジョージア工科大学の博士課程の学生で、この研究には関わっていないランプラサート・セルヴァラジュ氏は、この研究は魅力的で、多くの既存のアイデアを組み合わせて非常に便利な新しいツールを生み出していると語った。

セルヴァラジュ氏は、将来、このような研究はさまざまな用途に使用され、より効率的で高度なアルゴリズムの構築に役立ち、研究者に内部へのアクセスを提供することでアルゴリズムの安全性を向上させ、偏見を排除するだろうと考えています。ニューラル ネットワークは、その固有の複雑さのために解釈可能性に欠けていますが、将来、このようなネットワークが自動車の運転やロボットの誘導に日常的に使用されるようになると、解釈可能性が必要になります。

「顕微鏡を作るような感じです」と、このプロジェクトに携わったOpenAIのクリス・オラー氏は言う。「少なくとも、それが私たちの目標です。」

下記のアクティベーションアトラスのインタラクティブバージョンは、distill.pub/activation-atlas/ でご覧いただけます。

アクティベーションアトラスは、研究者が視覚データアルゴリズムを適用して世界を理解するのを可能にします

ニューロンの活性化

アクティベーション アトラスやその他の機能視覚化ツールがどのように機能するかを理解するには、まず AI システムがオブジェクトを認識する方法について少し理解しておくと役立ちます。

これを実現する基本的な方法は、ニューラル ネットワークを使用することです。ニューラル ネットワークは、人間の脳とほぼ同様のコンピューティング構造です (ただし、複雑さの点では数年遅れています)。各ニューラル ネットワーク内には、メッシュのように接続された人工ニューロンの層があります。脳の細胞と同様に、これらの細胞は刺激に反応し、活性化と呼ばれるプロセスを実行します。重要なのは、これらを単にオンまたはオフにするのではなく、スペクトルに登録して、各アクティベーションに特定の値または重みを割り当てることです。

ニューラル ネットワークを有用なものにするには、大量のトレーニング データを提供する必要があります。視覚アルゴリズムの場合、これはそれぞれ特定のカテゴリでラベル付けされた数十万、あるいは数百万枚の画像を意味します。 GoogleとOpenAIの研究者がこの研究のためにテストしたニューラルネットワークの場合、それらのカテゴリーはウールからウィンザータイ、シートベルトからスペースヒーターまで多岐にわたりました。

ニューラル ネットワークは、接続された人工ニューロンの複数の層を使用してデータを処理します。異なるニューロンが画像の異なる部分に反応する

このデータを入力すると、ニューラル ネットワーク内のさまざまなニューロンが各画像に反応して点灯します。このパターンは画像のラベルに接続されており、この関連付けにより、ネットワークは物体の外観を学習できます。一度トレーニングすると、ネットワークにこれまで見たことのない画像を見せることができ、ニューロンが発火して、入力を特定のカテゴリに一致させます。

これらすべてが不安に聞こえるとしたら、それは多くの点でその通りだからです。多くの機械学習プログラムと同様に、ビジョンアルゴリズムは本質的には単なるパターンマッチングマシンです。これにより、特定の利点が得られます (必要なデータと計算能力があれば、トレーニングが簡単であるなど)。しかし、これには一定の弱点もあります (これまで見たことのない入力によって簡単に混乱する可能性があります)。

研究者たちは、2010 年代初頭に視覚タスクにおけるニューラル ネットワークの可能性を発見して以来、それがどのように実現されるかを解明しようと努めてきました。

初期の実験の1つは、2015年にリリースされたコンピュータービジョンプログラム「DeepDream」で、あらゆる画像を幻覚バージョンに変えるものでした。 DeepDream のビジュアルは確かに興味深いものでした (ある意味では、AI の美学を定義するものとなりました) が、このプログラムはアルゴリズム的思考の初期の試みでもありました。ある意味、すべては DeepDream から始まりました。

その後の研究では、同じ基本的なアプローチを採用し、それを微調整しました。まず、ネットワーク内の個々のニューロンを対象にして、何がそれらを発火させたかを調べ、次にニューロンのグループ、そしてネットワークの異なる層にあるニューロンの組み合わせを対象にしました。初期の実験が、ニュートンが視覚を理解するために鈍い針で自分の目を突いたように、偶然ではなく集中的なものであったとすれば、最近の研究は、ニュートンがプリズムを光線に向けたのと似ており、つまり、より的を絞ったものとなっている。神経ネットワークの各部分で活性化された視覚要素を何度もマッピングすることで、最終的に脳の視覚的なインデックスであるアトラスが得られます。

アクティブアトラスを拡大・縮小する

マシンビュー

しかし、アクティベーション アトラスはアルゴリズムの内部の仕組みについて具体的に何を教えてくれるのでしょうか?ここでは、有名なニューラル ネットワーク GoogLeNet や InceptionV1 の内部構造を解明するために使用される Google と OpenAI の例から始めることができます。

スクロールすると、ネットワークのさまざまな部分がさまざまな概念にどのように反応するか、またそれらの概念がどのように集まっているかがわかります。たとえば、犬はある場所にいて、鳥は別の場所にいます。また、ネットワークのさまざまなレイヤーがさまざまなタイプの情報をどのように表しているかを確認することもできます。下位レベルではより抽象的で基本的な幾何学的形状に対応しますが、上位レベルではそれらを認識可能な概念に分解します。

個々のカテゴリーを掘り下げてみると、本当に興味深いです。 Google と OpenAI が挙げた例の 1 つは、「シュノーケラー」と「スキューバダイバー」のカテゴリの区別です。

下の図では、ニューラル ネットワークがこれらのラベルを認識するために使用するさまざまなアクティベーションを確認できます。左側は「シュノーケラー」と強く関連付けられるアクティベーションであり、右側は「スキューバダイバー」と強く関連付けられるアクティベーションです。中央のアクティベーションは 2 つのクラス間で共有されますが、ストライプ上のアクティベーションはより差別化されています。

シュノーケラー(左)とスキューバダイバー(右)に関連するアクティベーション

一目見ただけで、明らかな色や模様がわかります。上部には鮮やかな色の魚のような斑点や縞模様があり、下部にはマスクのような形があります。しかし、右側に強調表示されているのは、機関車と密接に関連する珍しいアクティベーションです。研究者たちはこれを発見したとき困惑した。機関車に関するこの視覚情報は、スキューバダイバーを識別するためになぜ重要なのでしょうか?

「それで私たちはテストしてこう言いました。『蒸気機関車の写真を入れたら、分類がシュノーケラーからスキューバダイバーに切り替わるだろうか?』そして実際に切り替わったのです。」

同じ画像を再分類する方法を示す 3 つの画像。左側では、シュノーケラーとして識別されます。中央では、機関車が大きくなるにつれて、スキューバダイバーになります。機関車が十分に大きくなると、分類全体を引き継ぎます。

チームは最終的にその理由を突き止めました。それは、機関車の滑らかな金属の曲線が、視覚的にダイバーの空気タンクに似ているからでした。したがって、ニューラル ネットワークにとって、これはシュノーケラーとスキューバ ダイバーの明確な違いです。 2 つのカテゴリを区別する時間を節約するために、必要な識別用の視覚データを他の場所から借用するだけです。

この種の例は、ニューラル ネットワークがどのように動作するかについての魔法のような事実を明らかにします。懐疑論者にとっては、これはこれらのシステムの限界を示しています。視覚アルゴリズムは効果的かもしれないが、それが学習する情報は実際には人間が世界を理解する方法とは無関係であると彼らは言う。これにより、特定の悪質な行為に対して脆弱になります。たとえば、画像に慎重に選択したピクセルをいくつか追加するだけで、アルゴリズムが画像を誤分類する可能性があります。

しかし研究者にとって、アクティベーションアトラスや類似のツールによって明らかにされた情報は、これらのアルゴリズムの驚くべき深さと柔軟性を示しています。例えば、アルゴリズムがシュノーケリングをする人とスキューバダイバーを区別するために、それぞれのカテゴリーに異なる種類の動物を関連付けることもカーター氏は指摘した。

「カメのように深海に生息する動物はスキューバタンクで呼吸しますが、鳥のように水面に生息する動物はシュノーケルで呼吸します。」これはシステムが直接学習することのない情報だと彼は指摘する。代わりに、それは自分自身でそれを見つけました。それは世界に対するより深い理解のようなものです。

オラー氏も同意し、「高解像度の地図帳を見て、これらのネットワークが表現できる空間の広大さを目の当たりにすると、畏敬の念を抱くほどです」と語った。

彼らは、このようなツールを開発することで、AI 分野全体の進歩に貢献できると期待しています。マシンビジョンシステムが世界をどのように見ているかを理解することで、理論的にはシステムを効率的に構築し、その精度をより徹底的にチェックできるようになります。

<<:  2019 年の AI、セキュリティ、IT 運用、IoT に関する主な予測

>>:  オープンAI音声アシスタントMycroftでプライバシーを確​​保

推薦する

再編とリーダーシップ:デジタルとAIのリーダーが他を置き去りにしている

デジタルおよび AI リーダーと他の業界プレーヤーとの間のギャップは大きく、さらに広がっています。過...

2030年までに、人工知能のせいで世界中で8億人が失業するでしょう!ビル・ゲイツの失業者へのアドバイス

[[219257]]人工知能は本質的には人間のシミュレーションです。人間の思考をシミュレートする方法...

不動産の持続可能な開発を推進する4つのテクノロジートレンド

不動産業界は、エネルギー需要の 22% を占めていることから、変化する環境の中で持続可能性を確保する...

ChatGPTのモバイル収益は9月に460万ドルという過去最高を記録し、成長疲れが現れ始めている。

10月10日、人工知能チャットボットChatGPTのモバイル分野での取り組みは大きな成果をもたらし...

倉庫ロボットは資本の新たなトレンドになるか?オートストアは124億ドルの評価額で資金調達を受ける

最近、ノルウェーのロボット企業オートストアは、新規株式公開(IPO)の価格が1株当たり31ノルウェー...

...

ネイチャー、サイエンス、セルが参加し、80の学術機関がCOVID-19研究を無料で提供する

[[314283]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

プログラマーに必要ないくつかの一般的なソートおよび検索アルゴリズムの概要

序文最近、アルゴリズムの基礎を固めるために、アルゴリズムの本にある基本的なアルゴリズムをもう一度見直...

マイクロソフトの「Office の新時代」イベント プレビューでは AI が紹介される: 新しい描画アプリ、ゲーム フレーム レートの向上など

マイクロソフトは3月8日、北京時間3月22日午前1時にオンライン新製品発表会を開催することを決定した...

RNN と LSTM は弱いです!注目モデルは王様!

リカレント ニューラル ネットワーク (RNN)、長期短期記憶 (LSTM)、これらの人気のニューラ...

問題点を突き止める - Weiang 入札および評価ビデオインテリジェントアーカイブシステム

財務省令第87号では、購入者または購入代理店は入札および入札評価プロセス全体を録画および記録しなけれ...

AI人工知能の今後の発展方向と展望

人工知能 (AI) は、人間の知能をシミュレートし、学習、推論、認知、適応を通じて自律的にタスクを実...

...

人工知能の実例5つ

ここでは、AI が日常生活で非常に正確に使用されている 5 つのベスト例を紹介します。人工知能 (A...

AI技術は非常に高いレベルに達しており、解読と着色は非常に進歩している

画像処理の分野では、AIブラシがますます目立つようになってきています。以前、AIロスレス画像拡大、A...