フェイフェイ・リーのチームは、ゼロサンプル一般化を備えた自己エキスパートクローン技術を提案し、その性能はSOTAを上回った。

[[412771]]

それは正しい！またフェイフェイ・リーだよ！

フェイフェイ・リーについて最後に報道したのは、彼女が学術コミュニティのために Amazon Google Cloud データセンターを確保した時でした。

そして今回、彼女と彼女の研究チームが論文を持って私たちのところにやって来ました!

チームの先頭を歩いているのは、スタンフォード大学の博士号取得者であり、フェイフェイ・リーの弟子です。

（すみません、つい最近2008年のオリンピックの開会式を見直したばかりなんです…）

まず、Fei-Fei Li 氏のチームが arXiv に発表した論文のタイトルを見てみましょう。

SECANT: ビジョンポリシーのゼロショット一般化のための自己エキスパートクローニング

早速ですが、この論文の全体的な内容をご紹介したいと思います。

論文紹介

簡単な紹介

強化学習における一般化とは、環境との継続的な相互作用を通じてネットワークのメモリを生成することを指します。

このネットワークは、環境内の特定の信号に基づいて対応するアクションを完了できます。トレーニングされたエージェントは、どのような状態で何をすべきかを記憶し、状態の微妙な違いを認識して異なるアクションを実行できます。

もっと簡単に言えば、目に見えないテストデータに基づいて予測を行うことができることを意味します。

したがって、モデルの一般化を改善することは、機械学習の分野における重要な研究課題です。

特に視覚強化学習では、高次元の観測空間内の無関係な要因によって一般化が簡単に妨げられる可能性があります。

機械学習における一般化: アンダーフィッティング、フィッティング、オーバーフィッティング

この問題に対処するため、研究チームは堅牢なポリシー学習を使用して、分布が大きくシフトする目に見えない視覚環境へのゼロショット一般化を実行しました。

そこで、チームは、新しいテスト環境に適応できる自己エキスパートクローニング手法である「SECANT」モデルを提案しました (Self Expert Cloning for Adaptation to Novel Test-environments)。

この方法では、堅牢な表現とポリシーの最適化を分離して、2 段階で画像拡張を利用できます。

まず、弱い拡張による強化学習を使用して、エキスパートポリシーを最初からトレーニングします。

学生ネットワークは、強力に拡張された教師あり学習を通じて専門家の戦略を模倣し、その表現は専門家の戦略よりも視覚的な変化に対して堅牢です。

実験では、SECANT が DMControl (Deepmind Control)、自動運転、ロボット操作、屋内物体ナビゲーションという 4 つの難しい領域でゼロショット一般化において以前の SOTA モデルを上回り、それぞれ 26.5%、337.8%、47.7%、15.8% の改善を達成したことが示されています。

主な貢献

我々は、ポリシー学習とロバスト表現学習の問題を順次解決し、それによって目に見えない視覚環境に対する強力なゼロショット一般化性能を達成する SECANT モデルを提案します。
自動運転、ロボット操作、屋内物体ナビゲーションの 4 つの領域で、多様なベンチマークセットが設計および策定されています。 DMControl を除く他の 3 つの環境には、実際のアプリケーションを表すテスト時の外観のドリフトがあります。
SECANT は上記 4 つの分野のほとんどのタスクで SOTA を達成できることが証明されています。

SECANTフレームワーク

SECANT の主な目標は、さまざまな視覚サンプルのゼロサンプル生成を実現できるセルフエキスパートクローニング技術を開発することです。

著者が研究したSECANTトレーニングモデルは2つのステップに分解でき、コードは公開されています。

専門家の戦略

最初のステップでは、著者らは弱い拡張を通じて元の環境で一連の高性能な専門家ポリシーをトレーニングしました。視覚連続制御タスクでは、このポリシーはフィードフォワード深層畳み込みネットワークによってパラメータ化され、観測された画像は d 次元の連続アクションベクトルに変換されます。

実際の応用では、著者らはフレーム重ね合わせ技術を使用して、T 枚の連続画像を接続して時間情報の次元で観察しました。次に、意味的に保持された画像変換を通じて、データ拡張のための演算子が生成されます。画像のランダムな切り抜きは、エキスパート戦略をトレーニングするためのデフォルトの弱い拡張方法として使用されます。

このエキスパートポリシーのセットは、任意の標準 RL アルゴリズムによって最適化できます。著者らは、継続的な制御タスクで広く採用されているため、Soft Actor-Critic (SAC) を選択しました。次に、勾配降下法を使用してエキスパートパラメータを最適化し、最小化します。

学生の戦略

第 2 段階では、同じ観察下で大幅に変化する画像に対してテストを行い、エキスパートポリシーによって実行される最適なアクションを予測するように学生ネットワークをトレーニングします。この段階では、報酬信号へのさらなる露出は必要ありません。

形式的には、学生戦略も深層畳み込みニューラルネットワークですが、専門家戦略とは異なるアーキテクチャを持っています。本質的には、学生の戦略は、DAgger 模倣プロセスに従って専門家の戦略から拡張されます。

著者らは、エキスパート戦略を使用して、軌道の初期データセット D を収集します。次に、各反復で、強力な拡張演算子が選択され、サンプリングされた観測バッチに適用されます。

著者は、元の視覚要素をカラーブロック (Cc) に挿入し、ランダム畳み込み (Cv) を行い、ガウスノイズ (G) を追加し、線形混合 (M) を追加することで、さまざまな視覚サンプルを生成します。

著者らは、上記の組み合わせも調査し、低周波と高周波の構造伝播騒音の両方からランダムにサンプリングすると、全体的に最良の結果が得られるかを調べようとしました。著者らは、ランダムクロッピングをミックスに追加するとパフォーマンスがわずかに向上すると述べています。これは、学生のポリシー表現の空間不変性が向上するためと考えられます。

実験的なコンテンツ

視覚的ポリシー一般化ベンチマークの 4 つの異なるシナリオ (上から下へ): DMControl Suite、CARLA、Robosuite、iGibson

まず、著者らは、視覚エージェントの一般化能力を体系的に評価するために、4つの異なるドメインに適用可能なベンチマークを提案します。

各ドメインにおいて、チームは、1 つの環境でトレーニングされたアルゴリズムが、ゼロショット設定のさまざまな未知の環境でどの程度パフォーマンスを発揮するかを研究しました。この時点では報酬信号はなく、追加の試行も行われませんでした。

各タスクにおいて、SECANT は以前の SOTA アルゴリズム (SAC、SAC+crop、DR、NetRand、SAC+IDM、PAD) をベンチマークします。

DMコントロール

研究チームは、以前の設定に従って、DMControl の 8 つのタスクを使用して実験を実施しました。

一般化能力を測定するために、背景とロボット自体の色をランダムに生成し、実際のビデオを動的背景として使用しました。

SECANT は、1 つのタスクを除くすべてのタスクで、従来の SOTA よりも大幅に優れたパフォーマンスを発揮し、その差は 88.3% です。

すべての方法は、密なタスク固有の報酬を使用して 500,000 ステップにわたってトレーニングされます。

Robosuite: ロボット操作シミュレーター

Robosuite はロボット研究用のモジュール式シミュレーターです。

著者らは、4 つの困難な片腕および両腕操作タスクで SECANT と従来の手法をベンチマークしました。

アクション空間制御を備えた Franka Panda ロボットモデルを使用し、タスク固有の高密度報酬でトレーニングします。

すべてのエージェントは、168×168 の自己中心的 RGB ビューを入力として受け取ります。

SECANTは以前のSOTAと比較して337.8%の改善がみられました。

実験では、以前の最良の方法と比較して、SECANT は、簡単な設定で平均 287.5%、難しい設定で平均 374.3%、極端な設定で平均 351.6% の報酬の増加を達成することが示されています。

CARLA: 自動運転シミュレーター

SECANT の自然変動への一般化能力をさらに検証するために、CARLA シミュレーターで視覚観察による実際の運転シナリオを構築しました。

テストの目標は、歩行者や車両と衝突することなく、1000 タイムステップ以内に 8 の字型の高速道路 (CARLA Town 4) に沿って可能な限り走行することです。

エージェントは「晴れた正午」のシナリオでトレーニングされ、正午と日没時のさまざまな動的な天候と照明条件下で評価されました。

たとえば、雨天時には道路の反射率が高くなる傾向があります。 SECANT は、平均して 10 回のエピソードと天候ごとに 5 回のトレーニングランを実施し、テストで以前の SOTA よりも移動距離を 47.7% 増加させることができました。

iGibson: 屋内オブジェクトナビゲーション

iGibson は、非常にリアルな 3D の部屋と家具を備えたインタラクティブシミュレーターです。

このシミュレーターでは、実験の目的は光にできるだけ近づくことです。

報酬関数は、エージェントが視野内で光が占めるピクセルの割合を最大化するように促し、この割合が 10 ステップ連続で 5% を超えると成功と見なされます。

このテストでは、SECANT は、見えない部屋で従来の方法よりも 15.8% 高い成功率を達成しました。

著者について

この記事の第一著者は、Fei-Fei Li の誇り高き弟子である Linxi Fan です。彼は上海実験中学校を卒業し、ニューヨークのコロンビア大学で学士号を取得しました。現在はスタンフォード大学で博士号取得を目指しており、コンピュータービジョン、強化学習、ロボット工学を専攻しています。この論文は NVIDIA でのインターンシップ中に完成しました。

この記事の2人目の著者である黄徳安も、李飛飛の指導を受けています。彼は国立台湾大学で学士号を取得し、カーネギーメロン大学で修士号を取得しました。私は現在、スタンフォード大学でコンピューターサイエンスの博士号を取得しており、NVIDIA で一般化学習に関する研究を行っています。

3 番目の著者である Yu Zhiding 氏も NVIDIA の科学者です。華南理工大学の共同プログラムで電気工学の学士号を取得し、香港科技大学で電子工学の学士号を取得しました。2017 年にはカーネギーメロン大学で ECE の博士号を取得しました。

彼は 2018 年に NVIDIA に入社し、現在は NVIDIA の機械学習研究グループの上級研究科学者を務めています。

<<: 最高速度：250fps！リアルタイムの高性能車線検出アルゴリズムLaneATT

>>: AIビデオ分析が業務を強化できる4つの方法