モデル入力は目に頼りません!中国人著者:強化学習は人間と同じ知覚能力を持つ

モデル入力は目に頼りません!中国人著者:強化学習は人間と同じ知覚能力を持つ

[[439504]]

人間の適応力は恐ろしいですね!目の見えない人は目で世界を見ることはできませんが、練習を積めば杖が目になります。ニューラル ネットワークの目が混沌とした世界しか見ることができなかったら、それに慣れてしまうのでしょうか? Google Brain は最近、NeurIPS 2021 の注目論文でこの問題を研究しました。入力画像はランダムにシャッフルされ、強化学習によって得られたエージェントは依然として正しい決定を下すことができることがわかりました。

人間の感覚能力は実に驚くべきものです。

有名な神経科学者ポール・バッチ・リタはかつて、杖を使う盲人について詳細な観察と研究を行ったことがあります。

彼は、盲人が歩くときに杖を前後に振り、杖の先端が皮膚の触覚受容器を通じて道路状況に関する情報を盲人に伝えていることを発見した。

Bach-y-Rita はこれにインスピレーションを受けました。

彼は、杖は視覚障害者と物体の間の「インターフェース」として見ることができると考えています。杖の圧力と手への接触を通じて、視覚障害者にフィードバックを提供し、部屋のレイアウトなどの空間情報を形成することができます。

したがって、手の皮膚とその触覚受容器は情報収集ステーションのように機能し、脳内で画像を形成する網膜の代わりとなります。

見るために目を使う必要も、聞くために耳を使う必要もありません。本当の視覚と聴覚は脳の中にあるのです。

この適応は感覚代替とも呼ばれ、神経科学では非常に有名な現象です。

しかし、物事を見るのに慣れている角度を調整する、自転車を後ろ向きに乗ることを学ぶなど、難しい適応を達成するには、何週間、何ヶ月、あるいは何年もの練習も必要です。

対照的に、ほとんどのニューラルネットワークは感覚代替の現象をまったく生み出すことができません。

たとえば、ほとんどの強化学習 (RL) モデルでは、モデルの入力が事前に指定された形式である必要があります。これらの形式では、入力ベクトルの長さが固定値に制限され、指定された場所のピクセル強度、ステータス情報、位置、速度など、入力の各要素の正確な意味が事前に決定されます。

Ant や Cart-Pole などの一般的な RL ベンチマーク タスクでは、モデルの入力が変更されたり、現在のタスクに関係のないノイズの多い入力がモデルに入力されたりすると、現在の RL アルゴリズムを使用してトレーニングされたエージェントは機能しなくなります。

この問題に対処するため、Google は NeurIPS 2021 で、順列不変のニューラル ネットワーク モデルを調査するフォーカス ペーパーを公開しました。

このタイプのニューラル ネットワークでは、各感覚ニューロン (環境から感覚入力を受け取るニューロン) が、固定された意味を明示的に割り当てるのではなく、入力信号のコンテキストに基づいて信号の真の意味を見つけることができる必要があります。実験結果は、これらの不特定のエージェントが、破損した不完全な観測だけでなく、追加の冗長またはノイズの多い情報を含む入力を処理できることを示しています。

https://arxiv.org/abs/2109.02869

順列不変とは、特徴間に空間的な関係がなく、入力の順序が変わっても出力結果に影響しないことを意味します。たとえば、多層パーセプトロンでは、ピクセルの位置を変更しても最終結果には影響しませんが、畳み込みネットワークでは、特徴間に空間的な位置関係があります。

状態観察環境における感覚代替への適応に加えて、これらのエージェントは複雑な視覚観察環境における感覚代替にも適応できることを示します。

たとえば、カーレース ゲームでは、入力画像のストリームが絶えずシャッフルされると、画像が人間の目には見えなくなっても、AI は正しいアクションを実行できます。

論文の著者であるユージン・タン氏は、2007年に上海交通大学でコンピュータサイエンスの学士号を取得し、2010年に早稲田大学で修士号を取得しました。氏は主に強化学習とロボット工学の研究に焦点を当てており、関連技術を現実世界の問題に適用することに熱心です。

[[439509]]

提案されたアプローチは、各時間ステップで環境から観測を行い、観測の各要素を、互いに固定された関係を持たない、別個だが同一のニューラル ネットワーク (感覚ニューロンとも呼ばれる) に入力します。

各感覚ニューロンは、特定の感覚入力チャネルを通じてのみ時間情報を統合します。各感覚ニューロンは全体像のごく一部しか受け取らないため、全体的かつ一貫した決定を下すためには、互いに通信して情報構造を自己組織化する必要があります。

実験では、研究者らはブロードキャストメッセージを使用してニューロンが互いに通信できるように訓練した。

各感覚ニューロンは、ローカル情報を受信すると同時に、各タイムステップで出力メッセージを継続的にブロードキャストする必要もあります。 Transformer アーキテクチャで使用されるものと同様のアテンション メカニズムを使用して、これらのメッセージを統合し、グローバル潜在コードと呼ばれる出力ベクトルに結合することができます。

次に、ポリシー ネットワークはグローバル潜在コードを使用して、環境と対話するためのエージェントの次のアクションを生成します。操作が終了すると、通信ループは閉じられます。

また、このシステムの入力配置を変更してもモデル出力に影響がないのはなぜか、という疑問もあるかもしれません。

各感覚ニューロンは同一のニューラル ネットワークであるため、特定の 1 つの感覚入力からの情報の処理に限定されません。実際、各感覚ニューロンへの入力は定義されていません。

代わりに、各ニューロンは他の感覚ニューロンが受信した入力に注意を払うことによって、自身の入力信号の意味を見つけなければなりません。

この操作により、エージェントは入力全体をソートされていないセットとして処理するように強制され、システムが入力に対して不変になります。

さらに、訓練されたエージェントは、複数の感覚ニューロンを使用して、実際のニーズに応じて任意の長さの入力を処理できます。

実験結果では、研究者らは単純な状態観察環境においてこのアプローチの堅牢性と柔軟性を実証しました。

一般的な Ant 移動タスクのエージェントは、位置と速度の情報を含む合計 28 個の入力を受け取る必要があります。研究者らは入力ベクトルの順序を複数回シャッフルしましたが、それでも訓練されたエージェントは異なる配置の入力に素早く適応し、ゲームを前進し続けることができることが実験で示されました。

カートポール実験では、エージェントの目標はカートの中央に取り付けられたカートポールを振り、上向きのバランスを保つことです。

通常、エージェントは 5 つの入力のみを認識しますが、研究者は実験環境を変更して 15 の入力信号を混合し、そのうち 10 は純粋なノイズで、残りは環境の実際の観察結果を提供しました。

結果は、エージェントが依然としてタスクを効率的に実行できることを示しており、これはまた、システムが大量のノイズの多い入力を処理する能力があること、およびエージェントが有用であると判断した情報チャネルのみを使用できることも実証しています。

研究者らは、このアプローチを、画像からのピクセルのストリームをモデル入力とする高次元の視覚設定にも適用しました。実験では主に、視覚ベースの RL 環境の画面シャッフル バージョンを研究します。この環境では、各観測フレームが迷路のようなパッチのグリッドに分割され、エージェントはパッチをシャッフルされた順序で処理して、次に実行するアクションを決定する必要があります。

実験では、研究者はエージェントに画面上のパッチのランダムなサンプルを与え、ゲームの残りの部分は変更せずにそのままにしました。

モデルは、これらの固定されたランダムな位置でパッチの 70% を区別することができ、組み込みの Atari 対戦相手に対して依然として対抗できることが判明しました。

興味深いことに、研究者がエージェントに追加情報を公開し、エージェントがより多くの画像パッチを取得できるようにした場合、追加のトレーニングを行わなくてもパフォーマンスが向上しました。

エージェントがすべてのパッチを受信すると、ランダムな順序であっても、組み込み AI に対して 100% の確率で勝利します。

これらの操作により、トレーニング プロセス中の学習の難易度が多少上がりますが、モデルの一般化の向上など、追加の利点ももたらします。新しい画像がトレーニング環境の背景を置き換えても、エージェントは正常に動作できます。

この順列不変ニューラルネットワークは入力を制限せず、多くのノイズをフィルタリングできるため、強化学習の発展を大きく促進すると著者は考えています。

<<:  猫=チューリングマシン? 4つのテストにより、「猫コンピューター」が任意の計算を実行できることが証明された

>>:  2022 年に AI はサイバーセキュリティ分野に何をもたらすでしょうか?

ブログ    
ブログ    

推薦する

C# アルゴリズムで実装された文字列反転の簡単な分析

C# を使用して文字列反転アルゴリズムを実装することに関する面接の質問を見てみましょう。文字列反転の...

...

自然言語処理のためのOne Hot Modelについて

[[421481]]この記事はWeChatの公開アカウント「Pythonとビッグデータ分析」から転載...

自動化によって、採用担当者が大規模な適格な人材を特定する方法

AI ベースの自動化ツールは、候補者データを収集して処理し、候補者の調達、スクリーニング、多様性、そ...

百度のCTO王海鋒が言語と知識の完全なレイアウトを説明する

自然言語理解(NLP)は「人工知能の最高傑作」として知られており、これは言語や知識などの認知面におけ...

ジェスチャーをすると、AIが絵文字を認識し、ブラウザ上で動作する:オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

これを読めば分かるでしょう。これらは人工知能によって排除されつつある主要な職業です。

AIインテリジェンスは近年急速に発展しており、技術の進歩をもたらす一方で、一部の業界にも影響を与え...

自律走行の新しい方法がネイチャーの表紙に登場:夜を昼のように明るくする、浙江大学の博士

AI の支援により、機械の夜間視界は昼間と同じくらい鮮明になります。今日、既存の熱画像技術に革命をも...

企業は生成AIのオープンソース化のリスクとメリットを検討

EmTech MIT では、専門家が、生成 AI モデルのオープンソース化の長所と短所を含め、企業で...

ハイパーオートメーションはビジネスの未来か?企業にとって何ができるのでしょうか?

ロボティックプロセスオートメーション、人工知能、機械学習などの新しいテクノロジーを組み合わせることで...

このAI企業はマスクを使って中国の顔認識システムを破る! WeChat、Alipay、鉄道駅もすべて影響を受けた

海外メディアの報道によると、人工知能企業Kneronは特製の3Dマスクを使い、AlipayやWeCh...

スタンフォード大学がAI法の講座を開設。人工知能は法律の対象になり得るか?

昨年3月、アリゾナ州でウーバーの自動運転車が歩行者をはねて死亡させた。米国の検察当局が「ウーバーに責...

JWT: どの署名アルゴリズムを使用すればよいですか?

[[421048]]この記事は、Scott Brady が執筆した WeChat パブリック アカ...

あなたを飛び立たせる5つの迅速なフレームワークモデル

今日のデジタル化が進む世界では、人工知能は私たちの日常生活に欠かせないものとなっています。特に、プロ...