1つのGPUで強化学習のトレーニングを数分で完了できます。Googleの新しいエンジンはディープラーニングを1,000倍高速化します

[[413545]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

ロボットはどのようにしてこのような動作を実行するのでしょうか?

一般的に、強化学習に基づくシミュレーション環境でシミュレーショントレーニングを実施します。

このとき、単一のマシン上のCPU環境でシミュレーショントレーニングを行うと、数時間から数日かかります。

しかし今では、たった1 つのTPU/GPU で、数千のCPU または GPU のコンピューティングクラスターと同じ速度を実現でき、必要な時間がわずか数分にまで直接短縮されます。

これは強化学習の速度を1,000 倍に増加させることに相当します。

これは、Google の科学者によって開発された物理シミュレーションエンジン、Braxです。

論理分岐を避ける3つの戦略

最近の物理シミュレーションエンジンのほとんどはどのように設計されているのでしょうか?

重力、モーター駆動、関節拘束、物体衝突などのタスクを 1 つのシミュレータに統合し、複数のシミュレーションを並行して実行して、実際の動作システムを近似します。

△シミュレーションの各時間ステップで、力とモーメントが統合される

この場合、各シミュレータでの計算は異なり、データはデータセンター内のネットワークを介して転送される必要があります。

この並列レイアウトにより、待ち時間も長くなります。つまり、学習者はシミュレータから経験を得るまでに10,000 ナノ秒以上待つ必要がある場合があります。

では、この遅延を短縮するにはどうすればよいでしょうか?

Brax は、シミュレーションでの分岐を回避することで、何千もの並列環境での計算の完全な均一性を確保し、トレーニングアーキテクチャ全体の複雑さを軽減することを選択しました。

複雑さが単一の TPU または GPU で実行できるレベルまで低減されると、マシン間通信の計算オーバーヘッドが削減され、遅延を効果的に排除できます。

主な方法は3つあります。

連続関数が離散分岐ロジックに取って代わる

たとえば、ボールと壁の間の接触力を計算する場合、次のブランチが生成されます。

ボールが壁に触れると、壁から跳ね返るボールをシミュレートする別のコードが実行されます。

それ以外の場合は、他のコードを実行します。

ここで、符号付き距離関数を使用すると、if/else の離散分岐ロジックの生成を回避できます。

JAX JIT コンパイルにおけるブランチの評価

シミュレーションの前に、2 つのオブジェクトが衝突する可能性があるかどうかなど、環境の静的プロパティに基づいてブランチを評価します。

シミュレーションで必要なブランチ結果のみを選択します

これら 3 つの戦略を使用すると、剛体、ジョイント、アクチュエータで構成される環境をシミュレートする物理エンジンが得られます。

また、この環境におけるさまざまな操作（進化戦略、直接軌道最適化など）を実装する学習アルゴリズムでもあります。

それで、Brax のパフォーマンスはどうでしょうか?

最大1000倍のスピード

Brax テストで使用されるベンチマークは、OpenAI Gym の Ant、HalfCheetah、Humanoid、および Reacher です。

物理法則の巧みな操作、一般的な移動（オブジェクトが配置されている周囲の任意の場所に移動するなど）、産業用ロボットアームのシミュレーションなど、3 つの新しい環境も追加されました。

研究者たちはまず、Brax がより多くの環境を並行してシミュレートする際に、どれだけの物理ステップ (または環境の状態の更新) を生成できるかをテストしました。

テスト結果の TPUv3 8x8 曲線は、Brax が複数のデバイス間でシームレスにスケーリングして、1 秒あたり数億の物理ステップに到達できることを示しています。

TPU だけでなく、V100 および P100 曲線からも、Brax はハイエンドGPUでも優れたパフォーマンスを発揮することがわかります。

さらに、Brax が単一のワークステーションで強化学習実験を実行するのにかかる時間もあります。

ここで研究者らは、Ant ベンチマーク環境でトレーニングされた Brax エンジンと MuJoCo 物理エンジンを比較しました。

ご覧のとおり、MuJoCo (青線) に必要な約 3 時間と比較すると、Brax のアクセラレータハードウェアを使用した最速時間はわずか10 秒です。

Brax を使用すると、シングルコアトレーニングの効率が向上するだけでなく、大規模な並列シミュレーショントレーニングにも拡張できます。

論文の宛先:
https://arxiv.org/abs/2106.13281

ダウンロード：
https://github.com/google/brax

<<: 市長や市議会議員に立候補する際、ロボットは公務員として適しているでしょうか?

>>: Google が新たなブラックテクノロジープロジェクトを立ち上げました。産業用ロボットへの賭け

DALL・Eは発売からわずか2日で復刻されたのか？公式論文はまだ発表されていないが、専門家らはすでにそれを再現している。

ブログ

無人運転車の現状はどうなっているのでしょうか?

ブログ

2023 年のフィンテック業界における AI トレンドトップ 10

ブログ

幼少期から始める：AIを学ぶのに最適な時期は中学生

ブログ

テスラロボットに人間の脳意識が搭載される？マスク氏独占インタビュー：AIがミスを犯すことへの恐怖

ブログ

TOP50 人工知能のケーススタディ: AI は単なる誇大宣伝ではなく、努力によって実現される

ブログ

人工知能の責任ある使用のための10の原則

ブログ

馬化騰氏は「人工知能の4つの主要な発展傾向が今後10年間で世界を変えるだろう」と述べた。

ブログ

IBM と NASA が衛星データを分析するためのオープンソース AI モデルを開発

ブログ

1つのGPUで強化学習のトレーニングを数分で完了できます。Googleの新しいエンジンはディープラーニングを1,000倍高速化します

論理分岐を避ける3つの戦略

最大1000倍のスピード

DALL・Eは発売からわずか2日で復刻されたのか？公式論文はまだ発表されていないが、専門家らはすでにそれを再現している。

無人運転車の現状はどうなっているのでしょうか?

2023 年のフィンテック業界における AI トレンドトップ 10

幼少期から始める：AIを学ぶのに最適な時期は中学生

テスラロボットに人間の脳意識が搭載される？マスク氏独占インタビュー：AIがミスを犯すことへの恐怖

TOP50 人工知能のケーススタディ: AI は単なる誇大宣伝ではなく、努力によって実現される

人工知能の責任ある使用のための10の原則

馬化騰氏は「人工知能の4つの主要な発展傾向が今後10年間で世界を変えるだろう」と述べた。

IBM と NASA が衛星データを分析するためのオープンソース AI モデルを開発

推薦する

AI モデルの「アウトソーシング」をやめましょう!新しい研究によると、機械学習モデルのセキュリティを弱める「バックドア」の一部は検出できないことが判明した。

自動化とロボットの違いと適用可能なシナリオ

ByteDanceのLi Hang氏：科学におけるAIの探究と進歩

データに最適な埋め込みモデルの選択: OpenAI とオープンソースの多言語埋め込みの比較テスト

Meta が 128 言語をサポートする新しい音声モデルをリリース: Metaverse での言語間コミュニケーションを示唆

AIがハイパフォーマンスコンピューティングから学べる7つの教訓

人工知能に適した9つのプログラミング言語

人工知能の時代では、次の7つの重要な要素を念頭に置く必要があります

Google: 2020年5月のコアアルゴリズムアップデート、多数のウェブサイトに影響

PyTorch と TensorFlow で画像分類モデルをトレーニングする方法

コンピュータービジョン: 画像検出と画像セグメンテーションの違いは何ですか?

DeepMind は、RL エージェントを簡単に作成できる効率的な分散強化学習アルゴリズムフレームワーク Acme をリリースしました。

大きなモデルをベンチマークに騙されないでください!テストセットが事前トレーニングにランダムに挿入され、スコアが人為的に高くなり、モデルが愚かになる