ICLR 2021 調査ではゲームスキル パッケージについて調査?順序付けられた記憶決定ネットワークは、次のことを達成するのを助けます

ICLR 2021 調査ではゲームスキル パッケージについて調査?順序付けられた記憶決定ネットワークは、次のことを達成するのを助けます

[[394114]]

木を切る、狩りをする、家を建てるなどの長いゲームビデオを機械に見せるとします。モデルは、この構造化されていないビデオからこれらの意味のあるスキルパッケージを自動的に検出できますか?

現実の世界では、人間は複雑なタスクを複数のサブタスクに効果的に分解する能力に特に優れています。この能力は、人間が学習プロセスを加速し、新しい環境に直面したときに優れた一般化能力を獲得するのに役立ちます。

従来の方法は主に確率的グラフィカル モデルを中心に展開されます。これらの研究では、サブタスク構造を潜在変数としてモデル化し、学習した事後分布からサブタスクのアイデンティティを抽出します。 ICLR 2021の論文で、MIT-IBMラボのGan Chuangチームは、モントリオール大学と共同で、「模倣学習でサブタスク構造が自動的に出現するように、よりスマートなニューラルネットワークを設計することは可能か?」という質問をしました。具体的には、研究者らは、サブタスク構造が各ステップの表現に反映されるように、再帰的決定ネットワークを設計しました。

この研究では、研究者らは順序付き記憶決定ネットワーク (OMPN) を提案しました。このモデルは、通常の動作のクローン作成を通じてサブタスクの階層を検出し、非構造化デモンストレーションからサブタスクの境界を回復できます。 Craft と Dial の実験では、サブタスク階層が、人間による追加の注釈なしでモデルから自然に進化することが示されています。

  • 論文アドレス: https://openreview.net/pdf?id=vcopnwZ7bC
  • プロジェクトアドレス: https://github.com/Ordered-Memory-RL/

メモリはサブタスクをどのように表現しますか?

研究者たちは説明のためにグリッドワールドの例を挙げている。この例には、エージェントが拾うことができるさまざまな原材料 (草など) があり、エージェントがこれらの原材料を使用できるようにするための工場も含まれています。エージェントが橋の建設タスクを完了したいとします。このタスクはツリー状の多層構造に分解できます。その中でも、ルートタスクは「原材料の採取」と「橋の建設」に分けられます。 「材料を拾う」は、さらに「草を拾う」と「木を拾う」に分けられます。

上記の構造を実装するには、エージェントのメモリを各ステップでどのように「更新」すればよいでしょうか?下の図では、メモリは異なるレベルのサブタスクに対応するさまざまなレベルに分割されています。 't=1' の場合、モデルはルート タスク「橋を建設する」のみから開始し、それを「原材料を拾う」に「拡張」し、さらに「木材を拾う」に「拡張」します。ここでの「展開」(青い矢印)は、メモリの最下位レベルからアクションが生成される「計画演算子」として理解できます。 「t<3」では「材料を拾う」がコピーされますが、「木材を拾う」が完了すると、つまり「t=3」になると、サブタスクが「更新」されます。ここでの「更新」は、各サブタスクの内部更新とみなすことができ、「更新」された「原材料の採取」は「拡張」されて次のサブタスク「草の採取」を得ることができます。同様に、「橋を建設する」は、「t=5」(「資材を拾う」が完了)で「更新」されるまでコピーされ、その後「橋を作る」と「工場に行く」に「拡張」されます。

このプロセスでは、「拡張の高さ」、つまり各瞬間に「拡張」が発生するメモリの位置を定義できます。研究者らはまた、「拡張高さ」の変化を観察することでサブタスクの境界を決定できることも発見した。たとえば、「t=2」から「t=3」までは、展開位置が最下位レベルから中位レベルになり、低レベルのサブタスクが完了したことを示します。 「t=4」から「t=5」にかけて、拡張位置は最低レベルから最高レベルに移動し、低レベルと中レベルのサブタスクの両方が完了したことを示します。したがって、目標は、合理的なネットワーク設計を通じて、モデルを上記のメモリ更新ルールに収束させることです。具体的には以下が含まれます:

  • モデルは現在の基礎となるサブタスクが完了したと判断した場合、高レベルの拡張位置を出力し、高レベルのサブタスクから拡張する必要があります。
  • モデルが現在の基礎となるサブタスクが完了していないと判断した場合、長期的な依存関係を実現するために、低レベルの拡張位置を出力し、高レベルのタスクをコピーする必要があります。

ネットワーク設計のデータフロー効果は次のとおりです。

行動クローニングからのタスク分解

主な実験結果は、正しいサブタスク構造が実際に行動のクローニングを通じてモデルに反映され、このプロセスでは追加のタスク境界ラベル付けが行われないことを示しています。次の例では、エージェントの軌道と展開位置の変化が視覚化されています。学習後、モデルは各サブタスクの終了時に拡張の高さを増やすことを学習します。各サブタスクの進行中、拡張の高さは低く保たれており、これは前述の直感と一致しています。

Craft タスクでは、モデルは「ベッドを構築する」ために 4 つのサブタスクを完了する必要があります。

ダイヤルタスクでは、モデルはロボットアームを制御して 4 つの数字を連続して押す必要があります。

キッチンタスクでは、モデルは 4 つの家電製品を継続的に操作する必要があります。

<<:  ドローンは農業にも活用されており、植物保護ドローンは侵入の防止と制御に非常に効果的です。

>>:  人工知能が人の感情を認識できるなんてすごいですね。信じられません。

ブログ    

推薦する

人工知能タスクに知っておくべき 11 個の Python ライブラリ

[[399295]]この記事はWeChatのパブリックアカウント「Python Society」から...

この「PhD Study Simulator」はとてもリアルです。何回諦めるように説得されるか試してみてください。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

強化学習アルゴリズムの分類をさまざまな観点から理解します

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

...

微積分の最終試験に希望があります! AIが方程式を解くのを手伝います

最近、Facebook AI は、記号推論を使用して高度な数式を解き、その精度が Mathemati...

インテリジェントな人間と機械のインタラクションがデジタルサービスを新たなレベルに引き上げます

2020年という「長い」年が、あっという間に終わりを迎えようとしています。この時期を振り返ると、長い...

Hinton チームの新しい CV 研究: ターゲット検出に言語モデルを使用、DETR に匹敵するパフォーマンス

[[426028]]視覚オブジェクト検出システムは、画像内のすべての定義済みカテゴリのオブジェクト...

AIが人々の職場復帰を支援:重慶の音声ロボット、北京の無人配達、広州の顔認識体温測定

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Linux カーネルのメモリ管理アルゴリズム Buddy と Slab

[[251667]]バディ割り当てアルゴリズムこれはページ フレームの連続セクションであると仮定し...

革新的な人工視覚脳インプラントが初めて視覚障害者に移植される

現時点では失明を治す方法はないが、初めての人工視覚システムの移植が初めて成功し、失明した人々の視力を...

2021年のAIの現状: 言語モデル、ヘルスケア

人工知能は、人間の活動と市場投資の2つの主要分野である健康と言語に拡大しています。 「State o...

図解された Raft コンセンサス アルゴリズム: ログを複製する方法は?

[[402526]]ラフトログフォーマットRaft アルゴリズムでは、分散一貫性を実現するために必...

...

OpenAI: 著作権のあるコンテンツを使用しないと、ChatGPTのようなAIモデルを開発することはできない

IT Homeは1月10日、ChatGPTの開発元であるOpenAIが最近、ChatGPTのようなA...