ICLR 2021 調査ではゲームスキル パッケージについて調査?順序付けられた記憶決定ネットワークは、次のことを達成するのを助けます

ICLR 2021 調査ではゲームスキル パッケージについて調査?順序付けられた記憶決定ネットワークは、次のことを達成するのを助けます

[[394114]]

木を切る、狩りをする、家を建てるなどの長いゲームビデオを機械に見せるとします。モデルは、この構造化されていないビデオからこれらの意味のあるスキルパッケージを自動的に検出できますか?

現実の世界では、人間は複雑なタスクを複数のサブタスクに効果的に分解する能力に特に優れています。この能力は、人間が学習プロセスを加速し、新しい環境に直面したときに優れた一般化能力を獲得するのに役立ちます。

従来の方法は主に確率的グラフィカル モデルを中心に展開されます。これらの研究では、サブタスク構造を潜在変数としてモデル化し、学習した事後分布からサブタスクのアイデンティティを抽出します。 ICLR 2021の論文で、MIT-IBMラボのGan Chuangチームは、モントリオール大学と共同で、「模倣学習でサブタスク構造が自動的に出現するように、よりスマートなニューラルネットワークを設計することは可能か?」という質問をしました。具体的には、研究者らは、サブタスク構造が各ステップの表現に反映されるように、再帰的決定ネットワークを設計しました。

この研究では、研究者らは順序付き記憶決定ネットワーク (OMPN) を提案しました。このモデルは、通常の動作のクローン作成を通じてサブタスクの階層を検出し、非構造化デモンストレーションからサブタスクの境界を回復できます。 Craft と Dial の実験では、サブタスク階層が、人間による追加の注釈なしでモデルから自然に進化することが示されています。

  • 論文アドレス: https://openreview.net/pdf?id=vcopnwZ7bC
  • プロジェクトアドレス: https://github.com/Ordered-Memory-RL/

メモリはサブタスクをどのように表現しますか?

研究者たちは説明のためにグリッドワールドの例を挙げている。この例には、エージェントが拾うことができるさまざまな原材料 (草など) があり、エージェントがこれらの原材料を使用できるようにするための工場も含まれています。エージェントが橋の建設タスクを完了したいとします。このタスクはツリー状の多層構造に分解できます。その中でも、ルートタスクは「原材料の採取」と「橋の建設」に分けられます。 「材料を拾う」は、さらに「草を拾う」と「木を拾う」に分けられます。

上記の構造を実装するには、エージェントのメモリを各ステップでどのように「更新」すればよいでしょうか?下の図では、メモリは異なるレベルのサブタスクに対応するさまざまなレベルに分割されています。 't=1' の場合、モデルはルート タスク「橋を建設する」のみから開始し、それを「原材料を拾う」に「拡張」し、さらに「木材を拾う」に「拡張」します。ここでの「展開」(青い矢印)は、メモリの最下位レベルからアクションが生成される「計画演算子」として理解できます。 「t<3」では「材料を拾う」がコピーされますが、「木材を拾う」が完了すると、つまり「t=3」になると、サブタスクが「更新」されます。ここでの「更新」は、各サブタスクの内部更新とみなすことができ、「更新」された「原材料の採取」は「拡張」されて次のサブタスク「草の採取」を得ることができます。同様に、「橋を建設する」は、「t=5」(「資材を拾う」が完了)で「更新」されるまでコピーされ、その後「橋を作る」と「工場に行く」に「拡張」されます。

このプロセスでは、「拡張の高さ」、つまり各瞬間に「拡張」が発生するメモリの位置を定義できます。研究者らはまた、「拡張高さ」の変化を観察することでサブタスクの境界を決定できることも発見した。たとえば、「t=2」から「t=3」までは、展開位置が最下位レベルから中位レベルになり、低レベルのサブタスクが完了したことを示します。 「t=4」から「t=5」にかけて、拡張位置は最低レベルから最高レベルに移動し、低レベルと中レベルのサブタスクの両方が完了したことを示します。したがって、目標は、合理的なネットワーク設計を通じて、モデルを上記のメモリ更新ルールに収束させることです。具体的には以下が含まれます:

  • モデルは現在の基礎となるサブタスクが完了したと判断した場合、高レベルの拡張位置を出力し、高レベルのサブタスクから拡張する必要があります。
  • モデルが現在の基礎となるサブタスクが完了していないと判断した場合、長期的な依存関係を実現するために、低レベルの拡張位置を出力し、高レベルのタスクをコピーする必要があります。

ネットワーク設計のデータフロー効果は次のとおりです。

行動クローニングからのタスク分解

主な実験結果は、正しいサブタスク構造が実際に行動のクローニングを通じてモデルに反映され、このプロセスでは追加のタスク境界ラベル付けが行われないことを示しています。次の例では、エージェントの軌道と展開位置の変化が視覚化されています。学習後、モデルは各サブタスクの終了時に拡張の高さを増やすことを学習します。各サブタスクの進行中、拡張の高さは低く保たれており、これは前述の直感と一致しています。

Craft タスクでは、モデルは「ベッドを構築する」ために 4 つのサブタスクを完了する必要があります。

ダイヤルタスクでは、モデルはロボットアームを制御して 4 つの数字を連続して押す必要があります。

キッチンタスクでは、モデルは 4 つの家電製品を継続的に操作する必要があります。

<<:  ドローンは農業にも活用されており、植物保護ドローンは侵入の防止と制御に非常に効果的です。

>>:  人工知能が人の感情を認識できるなんてすごいですね。信じられません。

推薦する

安全で制御可能、かつ法的に準拠した人工知能は金融分野で「原則化」されている

現在、国内の新興デジタルインフラの進歩と、5G、クラウドコンピューティング、ビッグデータなどのモジュ...

オープンソース! Gartner の 100 ページの機械学習ブックが無料でダウンロードできるようになりました。

今日の大企業は、産業化以来最大の変革を経験しています。人工知能は、産業や私たちの働き方、考え方、交流...

...

...

何?ニューラルネットワークは新しい知識も生み出せるのでしょうか?

作業を実行するための明示的なアルゴリズムを知らなくても、特定のタスク用にニューラル ネットワーク (...

清華大学がゲーム会社を設立しました! 10人以上のChatGPTが勤務し、7分でゲームを開発

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ブロックチェーンは人工知能をどのように変えるのでしょうか?

人工知能とブロックチェーンは、現在人気が高まっている2つの人気産業です。 2つの技術は異なり、商業的...

...

2022 年にゲームを変える AI と ML テクノロジーのトップトレンド

Covid-19パンデミックの発生に伴い、あらゆる業界の企業が先進技術を活用して、私たちの働き方や生...

AmapとDAMO Academyが共同で車載ARナビゲーションを導入し、従来の運転体験を覆す

Amapは本日、車載ARナビゲーションを共同で立ち上げるためにDAMOアカデミーと協力関係を結んだと...

...

新しい研究では、AIを使用してトラウマ性解離を引き起こす脳領域を探索する

[[344125]]解離や解離性障害は、特に幼少期に極度のトラウマや慢性的な虐待を経験した人々によっ...

人工知能を実現する方法 - データからインテリジェンスへ

人工知能を現実のものにするには?では、データから知恵に至るまで、人工知能を現実のものにするにはどうす...

工業情報化部:電話ネットワークアクセスの物理チャネルに肖像マッチング技術を導入

今年12月1日より、物理チャネルでは顔認識技術対策を全面的に導入し、電話ネットワークへのアクセスプロ...

AIがテキストを元に「抽象画」を描いたらどうなるでしょうか? |DeepMindの新アルゴリズム

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...