フェイフェイ・リーのチームは、ゼロサンプル一般化を備えた自己エキスパートクローン技術を提案し、その性能はSOTAを上回った。

フェイフェイ・リーのチームは、ゼロサンプル一般化を備えた自己エキスパートクローン技術を提案し、その性能はSOTAを上回った。

[[412771]]

それは正しい!またフェイフェイ・リーだよ!

フェイフェイ・リーについて最後に報道したのは、彼女が学術コミュニティのために Amazon Google Cloud データセンターを確保した時でした。

そして今回、彼女と彼女の研究チームが論文を持って私たちのところにやって来ました!

チームの先頭を歩いているのは、スタンフォード大学の博士号取得者であり、フェイフェイ・リーの弟子です。

(すみません、つい最近2008年のオリンピックの開会式を見直したばかりなんです…)

まず、Fei-Fei Li 氏のチームが arXiv に発表した論文のタイトルを見てみましょう。

SECANT: ビジョンポリシーのゼロショット一般化のための自己エキスパートクローニング

早速ですが、この論文の全体的な内容をご紹介したいと思います。

論文紹介

簡単な紹介

強化学習における一般化とは、環境との継続的な相互作用を通じてネットワークのメモリを生成することを指します。

このネットワークは、環境内の特定の信号に基づいて対応するアクションを完了できます。トレーニングされたエージェントは、どのような状態で何をすべきかを記憶し、状態の微妙な違いを認識して異なるアクションを実行できます。

もっと簡単に言えば、目に見えないテストデータに基づいて予測を行うことができることを意味します。

したがって、モデルの一般化を改善することは、機械学習の分野における重要な研究課題です。

特に視覚強化学習では、高次元の観測空間内の無関係な要因によって一般化が簡単に妨げられる可能性があります。

機械学習における一般化: アンダーフィッティング、フィッティング、オーバーフィッティング

この問題に対処するため、研究チームは堅牢なポリシー学習を使用して、分布が大きくシフトする目に見えない視覚環境へのゼロショット一般化を実行しました。

そこで、チームは、新しいテスト環境に適応できる自己エキスパートクローニング手法である「SECANT」モデルを提案しました (Self Expert Cloning for Adaptation to Novel Test-environments)。

この方法では、堅牢な表現とポリシーの最適化を分離して、2 段階で画像拡張を利用できます。

まず、弱い拡張による強化学習を使用して、エキスパート ポリシーを最初からトレーニングします。

学生ネットワークは、強力に拡張された教師あり学習を通じて専門家の戦略を模倣し、その表現は専門家の戦略よりも視覚的な変化に対して堅牢です。

実験では、SECANT が DMControl (Deepmind Control)、自動運転、ロボット操作、屋内物体ナビゲーションという 4 つの難しい領域でゼロショット一般化において以前の SOTA モデルを上回り、それぞれ 26.5%、337.8%、47.7%、15.8% の改善を達成したことが示されています。

主な貢献

  • 我々は、ポリシー学習とロバスト表現学習の問題を順次解決し、それによって目に見えない視覚環境に対する強力なゼロショット一般化性能を達成する SECANT モデルを提案します。
  • 自動運転、ロボット操作、屋内物体ナビゲーションの 4 つの領域で、多様なベンチマーク セットが設計および策定されています。 DMControl を除く他の 3 つの環境には、実際のアプリケーションを表すテスト時の外観のドリフトがあります。
  • SECANT は上記 4 つの分野のほとんどのタスクで SOTA を達成できることが証明されています。

SECANTフレームワーク

SECANT の主な目標は、さまざまな視覚サンプルのゼロサンプル生成を実現できるセルフエキスパートクローニング技術を開発することです。

著者が研究したSECANTトレーニングモデルは2つのステップに分解でき、コードは公開されています。

専門家の戦略

最初のステップでは、著者らは弱い拡張を通じて元の環境で一連の高性能な専門家ポリシーをトレーニングしました。視覚連続制御タスクでは、このポリシーはフィードフォワード深層畳み込みネットワークによってパラメータ化され、観測された画像は d 次元の連続アクション ベクトルに変換されます。

実際の応用では、著者らはフレーム重ね合わせ技術を使用して、T 枚の連続画像を接続して時間情報の次元で観察しました。次に、意味的に保持された画像変換を通じて、データ拡張のための演算子が生成されます。画像のランダムな切り抜きは、エキスパート戦略をトレーニングするためのデフォルトの弱い拡張方法として使用されます。

このエキスパート ポリシーのセットは、任意の標準 RL アルゴリズムによって最適化できます。著者らは、継続的な制御タスクで広く採用されているため、Soft Actor-Critic (SAC) を選択しました。次に、勾配降下法を使用してエキスパート パラメータを最適化し、最小化します。

学生の戦略

第 2 段階では、同じ観察下で大幅に変化する画像に対してテストを行い、エキスパート ポリシーによって実行される最適なアクションを予測するように学生ネットワークをトレーニングします。この段階では、報酬信号へのさらなる露出は必要ありません。

形式的には、学生戦略も深層畳み込みニューラル ネットワークですが、専門家戦略とは異なるアーキテクチャを持っています。本質的には、学生の戦略は、DAgger 模倣プロセスに従って専門家の戦略から拡張されます。

著者らは、エキスパート戦略を使用して、軌道の初期データセット D を収集します。次に、各反復で、強力な拡張演算子が選択され、サンプリングされた観測バッチに適用されます。

著者は、元の視覚要素をカラー ブロック (Cc) に挿入し、ランダム畳み込み (Cv) を行い、ガウス ノイズ (G) を追加し、線形混合 (M) を追加することで、さまざまな視覚サンプルを生成します。

著者らは、上記の組み合わせも調査し、低周波と高周波の構造伝播騒音の両方からランダムにサンプリングすると、全体的に最良の結果が得られるかを調べようとしました。著者らは、ランダム クロッピングをミックスに追加するとパフォーマンスがわずかに向上すると述べています。これは、学生のポリシー表現の空間不変性が向上するためと考えられます。

実験的なコンテンツ

視覚的ポリシー一般化ベンチマークの 4 つの異なるシナリオ (上から下へ): DMControl Suite、CARLA、Robosuite、iGibson

まず、著者らは、視覚エージェントの一般化能力を体系的に評価するために、4つの異なるドメインに適用可能なベンチマークを提案します。

各ドメインにおいて、チームは、1 つの環境でトレーニングされたアルゴリズムが、ゼロショット設定のさまざまな未知の環境でどの程度パフォーマンスを発揮するかを研究しました。この時点では報酬信号はなく、追加の試行も行われませんでした。

各タスクにおいて、SECANT は以前の SOTA アルゴリズム (SAC、SAC+crop、DR、NetRand、SAC+IDM、PAD) をベンチマークします。

DMコントロール

研究チームは、以前の設定に従って、DMControl の 8 つのタスクを使用して実験を実施しました。

一般化能力を測定するために、背景とロボット自体の色をランダムに生成し、実際のビデオを動的背景として使用しました。

SECANT は、1 つのタスクを除くすべてのタスクで、従来の SOTA よりも大幅に優れたパフォーマンスを発揮し、その差は 88.3% です。

すべての方法は、密なタスク固有の報酬を使用して 500,000 ステップにわたってトレーニングされます。

Robosuite: ロボット操作シミュレーター

Robosuite はロボット研究用のモジュール式シミュレーターです。

著者らは、4 つの困難な片腕および両腕操作タスクで SECANT と従来の手法をベンチマークしました。

アクション空間制御を備えた Franka Panda ロボット モデルを使用し、タスク固有の高密度報酬でトレーニングします。

すべてのエージェントは、168×168 の自己中心的 RGB ビューを入力として受け取ります。

SECANTは以前のSOTAと比較して337.8%の改善がみられました。

実験では、以前の最良の方法と比較して、SECANT は、簡単な設定で平均 287.5%、難しい設定で平均 374.3%、極端な設定で平均 351.6% の報酬の増加を達成することが示されています。

CARLA: 自動運転シミュレーター

SECANT の自然変動への一般化能力をさらに検証するために、CARLA シミュレーターで視覚観察による実際の運転シナリオを構築しました。

テストの目標は、歩行者や車両と衝突することなく、1000 タイム ステップ以内に 8 の字型の高速道路 (CARLA Town 4) に沿って可能な限り走行することです。

エージェントは「晴れた正午」のシナリオでトレーニングされ、正午と日没時のさまざまな動的な天候と照明条件下で評価されました。

たとえば、雨天時には道路の反射率が高くなる傾向があります。 SECANT は、平均して 10 回のエピソードと天候ごとに 5 回のトレーニング ランを実施し、テストで以前の SOTA よりも移動距離を 47.7% 増加させることができました。

iGibson: 屋内オブジェクトナビゲーション

iGibson は、非常にリアルな 3D の部屋と家具を備えたインタラクティブ シミュレーターです。

このシミュレーターでは、実験の目的は光にできるだけ近づくことです。

報酬関数は、エージェントが視野内で光が占めるピクセルの割合を最大化するように促し、この割合が 10 ステップ連続で 5% を超えると成功と見なされます。

このテストでは、SECANT は、見えない部屋で従来の方法よりも 15.8% 高い成功率を達成しました。

著者について

[[412773]]

この記事の第一著者は、Fei-Fei Li の誇り高き弟子である Linxi Fan です。彼は上海実験中学校を卒業し、ニューヨークのコロンビア大学で学士号を取得しました。現在はスタンフォード大学で博士号取得を目指しており、コンピューター ビジョン、強化学習、ロボット工学を専攻しています。この論文は NVIDIA でのインターンシップ中に完成しました。

[[412774]]

この記事の2人目の著者である黄徳安も、李飛飛の指導を受けています。彼は国立台湾大学で学士号を取得し、カーネギーメロン大学で修士号を取得しました。私は現在、スタンフォード大学でコンピューターサイエンスの博士号を取得しており、NVIDIA で一般化学習に関する研究を行っています。

[[412775]]

3 番目の著者である Yu Zhiding 氏も NVIDIA の科学者です。華南理工大学の共同プログラムで電気工学の学士号を取得し、香港科技大学で電子工学の学士号を取得しました。2017 年にはカーネギーメロン大学で ECE の博士号を取得しました。

彼は 2018 年に NVIDIA に入社し、現在は NVIDIA の機械学習研究グループの上級研究科学者を務めています。

<<:  最高速度:250fps!リアルタイムの高性能車線検出アルゴリズムLaneATT

>>:  AIビデオ分析が業務を強化できる4つの方法

ブログ    
ブログ    
ブログ    

推薦する

コンピュータアーキテクチャにおける機械学習

[[428279]]機械学習 (ML) の最近の進歩に大きく貢献したものの 1 つは、Google ...

IDC: 高速サーバー市場は2023年上半期に31億ドルに達し、GPUサーバーが依然として主流となる

10月9日、IDCコンサルティングの公式WeChatアカウントによると、IDCは本日「中国半期加速コ...

機械学習が製造業に革命を起こす10の方法

人工知能の導入は製造業に大きな経済的利益をもたらすでしょう。この点に関しては、さまざまな研究機関が関...

人工知能技術の助けを借りて、人々は携帯電話を通じて皮膚がんを診断できるようになるかもしれない

最近、「ネイチャー」誌は表紙に次のような記事を掲載した。「ディープラーニングアルゴリズムを使用して皮...

OpenAIがMicrosoftに反旗を翻す!アルトマン氏が「ChatGPTのカスタマイズ」を企む。AI市場の未来はまた変わるのか?

ChatGPTはリリースからわずか半年で、5日間でユーザー数が100万人を超え、現在ユーザー総数は...

ML Ops: データ品質が鍵

ML Ops は AI 分野における比較的新しい概念であり、「機械学習操作」として説明できます。モデ...

...

トランスフォーマーは人気を失っているのか?常識的な問題を解決したい場合、ニューラルネットワークは答えではない

NLP 研究者は皆、言語モデルは文法的な文脈情報しか学習できず、常識的な質問に関しては無力であること...

研究:ChatGPTが提供するがん治療オプションには誤った情報が満載

8月27日、OpenAIのチャットボットChatGPTは世界中で人気となっているものの、重要な分野...

人間が作成したデータは高価すぎます!開発者はAI合成データをひそかに使用してモデルをトレーニングしている

現在、開発者は AI によって生成されたデータをひそかに使用して AI モデルをトレーニングしていま...

...

MLOps 実装を成功させるためのベストプラクティス

翻訳者 | ブガッティ企画 | 梁策、孫淑娟機械学習と今日の世界におけるその応用については、すでにご...

医療AIの将来に注目すべき3つのトレンド

COVID-19の流行、メンタルヘルスの危機、医療費の高騰、人口の高齢化により、業界のリーダーたちは...

Googleはプライバシーポリシーを更新し、インターネット上の公開情報をAIモデルのトレーニングに利用することを許可した。

検索エンジン大手のGoogleは7月4日、プライバシーポリシーを更新し、インターネット上の公開情報を...