トランスフォーマー+強化学習、Google DeepMindは世界を知覚するロボットの脳となる大きなモデルを作る

トランスフォーマー+強化学習、Google DeepMindは世界を知覚するロボットの脳となる大きなモデルを作る

ロボットの学習方法を開発する際に、大規模で多様なデータセットを統合し、強力で表現力豊かなモデル (Transformer など) と組み合わせることができれば、ロボットがさまざまなタスクを適切に処理できるように学習できる、一般化可能で幅広く適用可能な戦略を開発できると期待できます。たとえば、これらの戦略により、ロボットは自然言語の指示に従い、多段階の動作を実行し、さまざまな環境や目標に適応し、さらにはさまざまなロボットの形態で動作することさえできるようになります。

しかし、ロボット学習の分野で最近登場した強力なモデルはすべて、教師あり学習法を使用してトレーニングされています。したがって、結果として得られるポリシーのパフォーマンスは、人間のデモンストレーターが高品質のデモンストレーション データを提供できる範囲に制限されます。この制限には 2 つの理由があります。

  • まず、ロボット システムが人間の遠隔操作者よりも熟練し、ハードウェアの潜在能力を最大限に活用して、タスクを迅速かつスムーズに、確実に完了できるようにしたいと考えています。
  • 第二に、私たちはロボットシステムが、高品質のデモンストレーションに完全に依存するのではなく、自動的に経験を蓄積する能力を高めたいと考えています。

原則として、強化学習はこれら両方の機能を提供できます。

最近では、ロボットの把持や積み重ね、人間が指定した報酬による異種タスクの学習、マルチタスク ポリシーの学習、目標条件付きポリシーの学習、ロボットのナビゲーションなど、さまざまなアプリケーション設定で大規模なロボット強化学習が成功できることを示す有望な進歩がいくつかありました。しかし、研究によると、強化学習を使用してトレーニングされた Transformer などの強力なモデルは、大規模に効果的にインスタンス化することがより困難であることがわかっています。

最近、Google DeepMind は、多様な現実世界のデータセットに基づく大規模なロボット学習と、強力な Transformer に基づく最新のポリシー アーキテクチャを組み合わせることを目的とした Q-Transformer を提案しました。

  • 論文: https://q-transformer.github.io/assets/q-transformer.pdf
  • プロジェクト: https://q-transformer.github.io/

原理的には、既存のアーキテクチャ (ResNet または小規模な畳み込みニューラル ネットワーク) を Transformer に直接置き換えることは概念的には簡単ですが、このアーキテクチャを効果的に活用できるソリューションを設計することは非常に困難です。大規模なモデルは、大規模で多様なデータセットにアクセスできる場合にのみ効果的です。小規模で焦点が絞られたモデルでは、そのような機能は必要なく、そのメリットも得られません。

これまでの研究ではシミュレートされたデータを使用してこのようなデータセットが作成されてきましたが、最も代表的なデータは依然として現実世界から得られています。

そのため、DeepMindは、今回の研究ではオフライン強化学習を通じてTransformerを使用し、以前に収集された大規模なデータセットを統合することに重点を置いていると述べています。

オフライン強化学習法では、以前に利用可能なデータをトレーニングに使用し、特定のデータセットに基づいて最も効果的な戦略を推論することを目的としています。もちろん、このデータセットは自動的に収集された追加のデータで拡張できますが、トレーニング プロセスはデータ収集プロセスとは別であるため、大規模なロボット アプリケーションに追加のワークフローを提供できます。

Transformer モデルを使用して強化学習を実装する場合のもう 1 つの大きな問題は、そのようなモデルを効果的にトレーニングできる強化学習システムを設計することです。効果的なオフライン強化学習法では、通常、時間差の更新を通じて Q 関数を推定します。 Transformer は離散トークン シーケンスをモデル化するため、Q 関数推定問題を離散トークン シーケンス モデリング問題に変換し、シーケンス内の各トークンに適切な損失関数を設計できます。

アクション空間を離散化する最も単純で単純な方法では、アクション ベースが指数関数的に爆発的に増加するため、DeepMind は次元離散化スキームを採用しています。つまり、アクション空間の各次元は、強化学習の独立した時間ステップと見なされます。離散化における異なるビンは、異なるアクションに対応します。この次元ごとの離散化スキームにより、分布シフトを処理するために保守的な正則化子を備えた単純な離散アクション Q 学習アプローチを使用できます。

DeepMind は、データセット内の未実行の各アクションの価値を最小化する特殊な正規化子を提案しました。私たちの結果は、このアプローチが、デモンストレーションのような狭い範囲のデータと、探索ノイズを含むより広い範囲のデータの両方から学習できることを示しています。

最後に、モンテカルロ法と n ステップ回帰を時間差分バックアップと組み合わせたハイブリッド更新メカニズムも採用しました。結果は、このアプローチにより、大規模なロボット学習問題における Transformer ベースのオフライン強化学習手法のパフォーマンスを向上できることを示しています。

要約すると、この研究の主な貢献は、Q値の次元ごとのトークン化を使用し、実世界のデータを含む大規模で多様なロボットデータセットに適応した、ロボット工学におけるオフライン強化学習のためのTransformerベースのアーキテクチャであるQ-Transformerです。図 1 は Q-Transformer のコンポーネントをまとめたものです。

DeepMind は、厳密な比較のためのシミュレーション実験と実際の検証のための大規模な現実世界の実験の両方で実験評価も実施しました。大規模なテキストベースのマルチタスク戦略が学習され、その結果、Q-Transformer の有効性が検証されました。

実際の実験では、13 台のロボットが 700 以上のタスクで収集した、38,000 件の成功したデモンストレーションと 20,000 件の失敗した自動収集シーンを含むデータセットを使用しました。 Q-Transformer は、大規模ロボット強化学習向けにこれまで提案されたアーキテクチャや、Decision Transformer などのこれまで提案された Transformer ベースのモデルよりも優れています。

方法の概要

Transformer を使用して Q 学習を実行するために、DeepMind はアクション空間の離散化と自己回帰を適用します。

TD 学習を使用して Q 関数を学習する場合、古典的なアプローチはベルマン更新規則に基づいています。

研究者らは、問題の元の MDP を、各アクション次元が Q 学習のステップとして考慮される MDP に変換することにより、ベルマン更新を各アクション次元に対して実行できるように修正しました。

具体的には、アクション次元 d_A が与えられた場合、新しいベルマン更新規則は次のようになります。

これは、各中間アクション ディメンションに対して、同じ状態を前提として次のアクション ディメンションが最大化され、最後のアクション ディメンションに対して、次の状態の最初のアクション ディメンションが使用されることを意味します。この分解により、ベルマン更新における最大化が扱いやすいままになり、元の MDP 問題が依然として解決可能であることも保証されます。

オフライン学習中の分布の変化を考慮するために、DeepMind は、目に見えないアクションの価値を最小限に抑える単純な正規化手法も導入しました。

学習をスピードアップするために、モンテカルロ回帰も使用しました。特定のエピソードに対して return-to-go を使用し、次元の最大化をスキップできる n ステップ リターンも使用します。

実験結果

実験では、DeepMind は一連の現実世界のタスクで Q-Transformer を評価しましたが、各タスクのデータは人間のデモンストレーション 100 件のみに制限しました。

デモンストレーションに加えて、自動的に収集された障害イベントのスニペットを追加した結果、デモンストレーションからの 38,000 件の肯定的な例と自動的に収集された 20,000 件の否定的な例を含むデータセットが作成されました。

RT-1、IQL、Decision Transformer (DT) などのベースライン メソッドと比較して、Q-Transformer は自動イベント フラグメントを効果的に活用して、引き出しからアイテムを取り出す、ターゲットの近くでオブジェクトを移動する、引き出しを開閉するなどのスキルを使用する能力を大幅に向上させることができます。

研究者らはまた、提案された手法を、困難な模擬物体掴みタスクでテストした。このタスクでは、データの約 8% のみが正例であり、残りはノイズの多い負例であった。

このタスクでは、QT-Opt、IQL、AW-Opt、Q-Transformer などの Q 学習手法は、負の例を活用して動的プログラミングを通じてポリシーを学習できるため、一般的にパフォーマンスが向上します。

研究者たちは、この物体選択タスクに基づいてアブレーション実験を行い、パフォーマンスの維持には保守的な正則化子と MC リターンの両方が重要であることを発見しました。 Softmax 正則化に切り替えると、ポリシーがデータ分布に過度に制約されるため、パフォーマンスが大幅に低下します。これは、DeepMind がここで選択した正規化子がこのタスクにうまく対応できることを示しています。

n ステップ バックプロパゲーションに関するアブレーション実験では、バイアスは導入されるものの、このアプローチにより大幅に少ない勾配ステップで同じ高いパフォーマンスを達成でき、多くの問題を効果的に処理できることがわかりました。

研究者らは、より大きなデータセットで Q-Transformer を実行することも試みました。肯定的な例の数を 115,000 に、否定的な例の数を 185,000 に増やした結果、300,000 のイベント クリップを含むデータセットができました。この大規模なデータセットを使用することで、Q-Transformer は依然として学習が可能であり、RT-1 BC ベースラインを上回るパフォーマンスを発揮します。

最後に、Q-Transformer によってトレーニングされた Q 関数をアフォーダンス モデルとして使用し、SayCan に似た言語プランナーと組み合わせました。

Q-Transformer アフォーダンス推定の効果は、QT-Opt でトレーニングされた以前の Q 関数によるものです。トレーニング中に、サンプリングされていないタスクが現在のタスクの負の例として再ラベル付けされると、効果がさらに向上する可能性があります。 Q-Transformer は QT-Opt トレーニングで使用されるシミュレーションから実際のトレーニングを必要としないため、適切なシミュレーションが不足している場合は Q-Transformer を使用する方が簡単です。

完全な「計画 + 実行」システムをテストするために、アフォーダンス推定と実際のポリシー実行の両方に Q-Transformer を使用して実験し、以前の QT-Opt と RT-1 の組み合わせよりも優れたパフォーマンスを発揮することを示しました。

特定の画像に対するタスク アフォーダンス値の例からわかるように、Q-Transformer は下流の「計画 + 実行」フレームワークに高品質のアフォーダンス値を提供できます。

詳しくは原文をお読みください。

<<: 

>>:  Microsoft の GitHub AI コードアシスタント Copilot Chat が個人利用向けに利用可能に

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

勾配降下法から準ニュートン法まで: ニューラル ネットワークをトレーニングするための 5 つの学習アルゴリズム

ニューラル ネットワークでは、システムの学習プロセスは一般にトレーニング アルゴリズムによって支配さ...

パラメータのわずか4%、GPT-3のパフォーマンスに匹敵:開発者がDeepMindのRETROを説明

BERT から GPT-2、そして GPT-3 へと、大規模モデルの規模は拡大し、そのパフォーマン...

マイクロソフトのAI研究者が誤って38TBの内部データを漏洩

クラウド セキュリティのスタートアップ企業 Wiz の研究者は、SAS トークンの設定ミスが原因で、...

AIの「ショートカット」がシミュレーションを数十億倍高速化

[[314916]]シミュレーターは、NASA がエアロゾル モデルを使用してオーストラリアの火災に...

ヨシュア・ベンジオ:私は国家間のAI競争を見たくないし、現在のAIの考え方を心配している。

[[250218]]ヨシュア・ベンジオ氏は、間違いなく現代の人工知能技術分野の第一人者です。ベンジ...

MoEとMambaが協力し、状態空間モデルを数百億のパラメータに拡張

状態空間モデル (SSM) は、最近注目を集めている Transformer の代替手段です。その利...

...

人間の運転、交通事故の最大の欠陥 | 自動運転車の交通安全に関する白書が発表

今年の自動運転業界は商用化がキーワードです。年末に、百度、中国自動車技術研究センター、同済大学が共同...

陳根:人工知能は人間と機械の間の感情的な溝を埋めている

長い間、感情があるかどうかは、人間と機械を区別する重要な基準の一つでした。つまり、機械が感情を持って...

...

ControlNetの作者が新作を発表:数百万のデータを使ったトレーニング、レイヤー設計の先駆けとなるAI画像生成

画像を生成するための大規模なモデルがコンピュータービジョンやグラフィックスの基礎となっている一方で、...

顔認識技術の応用における認知的誤解

[[286435]]カメラはどこにでもあり、顔認識は生活のほぼあらゆる場面で使用されています。どのよ...

WeChat JS-SDK-使用許可署名アルゴリズム

jsapi_チケット署名を生成する前に、まず jsapi_ticket を理解する必要があります。j...

「リーフチップ」が小型ロボットに油圧パワーを提供

[[186706]]マサチューセッツ工科大学(MIT)は最近、同校の研究者らが樹木や植物のポンプ機構...

光と闇:人工知能と人類の未来

今日、人工知能 (AI) はほぼすべての業界とすべての人に影響を及ぼしています。この驚くべき技術は、...