ICLR 2021 調査ではゲームスキル パッケージについて調査?順序付けられた記憶決定ネットワークは、次のことを達成するのを助けます

ICLR 2021 調査ではゲームスキル パッケージについて調査?順序付けられた記憶決定ネットワークは、次のことを達成するのを助けます

[[394114]]

木を切る、狩りをする、家を建てるなどの長いゲームビデオを機械に見せるとします。モデルは、この構造化されていないビデオからこれらの意味のあるスキルパッケージを自動的に検出できますか?

現実の世界では、人間は複雑なタスクを複数のサブタスクに効果的に分解する能力に特に優れています。この能力は、人間が学習プロセスを加速し、新しい環境に直面したときに優れた一般化能力を獲得するのに役立ちます。

従来の方法は主に確率的グラフィカル モデルを中心に展開されます。これらの研究では、サブタスク構造を潜在変数としてモデル化し、学習した事後分布からサブタスクのアイデンティティを抽出します。 ICLR 2021の論文で、MIT-IBMラボのGan Chuangチームは、モントリオール大学と共同で、「模倣学習でサブタスク構造が自動的に出現するように、よりスマートなニューラルネットワークを設計することは可能か?」という質問をしました。具体的には、研究者らは、サブタスク構造が各ステップの表現に反映されるように、再帰的決定ネットワークを設計しました。

この研究では、研究者らは順序付き記憶決定ネットワーク (OMPN) を提案しました。このモデルは、通常の動作のクローン作成を通じてサブタスクの階層を検出し、非構造化デモンストレーションからサブタスクの境界を回復できます。 Craft と Dial の実験では、サブタスク階層が、人間による追加の注釈なしでモデルから自然に進化することが示されています。

  • 論文アドレス: https://openreview.net/pdf?id=vcopnwZ7bC
  • プロジェクトアドレス: https://github.com/Ordered-Memory-RL/

メモリはサブタスクをどのように表現しますか?

研究者たちは説明のためにグリッドワールドの例を挙げている。この例には、エージェントが拾うことができるさまざまな原材料 (草など) があり、エージェントがこれらの原材料を使用できるようにするための工場も含まれています。エージェントが橋の建設タスクを完了したいとします。このタスクはツリー状の多層構造に分解できます。その中でも、ルートタスクは「原材料の採取」と「橋の建設」に分けられます。 「材料を拾う」は、さらに「草を拾う」と「木を拾う」に分けられます。

上記の構造を実装するには、エージェントのメモリを各ステップでどのように「更新」すればよいでしょうか?下の図では、メモリは異なるレベルのサブタスクに対応するさまざまなレベルに分割されています。 't=1' の場合、モデルはルート タスク「橋を建設する」のみから開始し、それを「原材料を拾う」に「拡張」し、さらに「木材を拾う」に「拡張」します。ここでの「展開」(青い矢印)は、メモリの最下位レベルからアクションが生成される「計画演算子」として理解できます。 「t<3」では「材料を拾う」がコピーされますが、「木材を拾う」が完了すると、つまり「t=3」になると、サブタスクが「更新」されます。ここでの「更新」は、各サブタスクの内部更新とみなすことができ、「更新」された「原材料の採取」は「拡張」されて次のサブタスク「草の採取」を得ることができます。同様に、「橋を建設する」は、「t=5」(「資材を拾う」が完了)で「更新」されるまでコピーされ、その後「橋を作る」と「工場に行く」に「拡張」されます。

このプロセスでは、「拡張の高さ」、つまり各瞬間に「拡張」が発生するメモリの位置を定義できます。研究者らはまた、「拡張高さ」の変化を観察することでサブタスクの境界を決定できることも発見した。たとえば、「t=2」から「t=3」までは、展開位置が最下位レベルから中位レベルになり、低レベルのサブタスクが完了したことを示します。 「t=4」から「t=5」にかけて、拡張位置は最低レベルから最高レベルに移動し、低レベルと中レベルのサブタスクの両方が完了したことを示します。したがって、目標は、合理的なネットワーク設計を通じて、モデルを上記のメモリ更新ルールに収束させることです。具体的には以下が含まれます:

  • モデルは現在の基礎となるサブタスクが完了したと判断した場合、高レベルの拡張位置を出力し、高レベルのサブタスクから拡張する必要があります。
  • モデルが現在の基礎となるサブタスクが完了していないと判断した場合、長期的な依存関係を実現するために、低レベルの拡張位置を出力し、高レベルのタスクをコピーする必要があります。

ネットワーク設計のデータフロー効果は次のとおりです。

行動クローニングからのタスク分解

主な実験結果は、正しいサブタスク構造が実際に行動のクローニングを通じてモデルに反映され、このプロセスでは追加のタスク境界ラベル付けが行われないことを示しています。次の例では、エージェントの軌道と展開位置の変化が視覚化されています。学習後、モデルは各サブタスクの終了時に拡張の高さを増やすことを学習します。各サブタスクの進行中、拡張の高さは低く保たれており、これは前述の直感と一致しています。

Craft タスクでは、モデルは「ベッドを構築する」ために 4 つのサブタスクを完了する必要があります。

ダイヤルタスクでは、モデルはロボットアームを制御して 4 つの数字を連続して押す必要があります。

キッチンタスクでは、モデルは 4 つの家電製品を継続的に操作する必要があります。

<<:  ドローンは農業にも活用されており、植物保護ドローンは侵入の防止と制御に非常に効果的です。

>>:  人工知能が人の感情を認識できるなんてすごいですね。信じられません。

ブログ    
ブログ    

推薦する

ネットユーザーたちは、顔認識技術の何が難しいのかと冗談を言っている。

今朝、ジャック・マーは自身の微博に「ドイツで開かれたCEBITカンファレンスの開幕式が終わったばかり...

賢い負荷分散アルゴリズム: 頭を使って

負荷分散技術は現在ではどこにでもありますが、基本的にはまだ使用段階であり、その核心は十分に理解されて...

...

Zhihu のホットトピック: 今後 3 ~ 5 年で、機械学習の人材が最も不足する分野はどれでしょうか?

[[328766]]今後 3 ~ 5 年で、機械学習のどの分野の人材が最も不足するでしょうか?今日...

...

AIチップのスタートアップ企業が実装の道を探り、開発が成熟

ここ数年、AIチップの新興企業が雨後の筍のように出現した。現在、初期の参加者グループは、優れたチップ...

人工知能システム:無制限の核融合反応を現実のものに

近年、研究者らはトカマクの停止や損傷の原因となる核分裂反応を研究している。核分裂反応を予測・制御でき...

AIロボットの出現により、運転訓練業界における知能の新たな章が開かれた。

近年、都市化と道路交通建設の加速により、自動車旅行の需要が継続的に増加しており、道路上の車両数の継続...

機械学習におけるクラス不均衡に対処するための 10 のヒント

導入あるクラスの観測値が他のクラスの観測値よりも高い場合、クラスの不均衡が生じます。例: 不正なクレ...

人工知能ネットワークが教育に与える影響を探る

教育業界は、テクノロジーの継続的な進歩によって大きなパラダイムシフトを経験しています。人工知能(AI...

DNS 負荷分散ランキングアルゴリズムの理解

先ほど、DNS 負荷分散の概念をいくつか紹介しました。次に、この負荷分散テクノロジに関連するアルゴリ...

チャットボットを作りたいですか?まず100通の遺書をすべて読む

[51CTO.com オリジナル記事]デリケートな状況にうまく対処するために、AI は絶望の言語につ...