人間と四足歩行ロボットのシンプルで効果的な相互作用は、有能なインテリジェントアシスタントロボットを生み出す道であり、テクノロジーが私たちの想像を超えた方法で生活を向上させる未来の到来を告げています。このような人間とロボットの相互作用システムでは、四足歩行ロボットが自然言語のコマンドに応答できるようにすることが重要です。 大規模言語モデル (LLM) は最近急速に開発され、高レベルの計画を実行する可能性を示しています。しかし、特に本質的に不安定で高周波の制御信号を必要とする脚式ロボットの場合、関節角度の目標やモーターのトルクなどの低レベルのコマンドを LLM が理解するのは依然として困難です。そのため、既存の研究のほとんどは、ロボットの動作を決定するために LLM に高レベルの API が提供されていることを前提としており、これによってシステムの表現力が根本的に制限されています。 CoRL 2023 の論文「SayTap: 四足歩行のための言語」で、Google DeepMind と東京大学は、人間の自然言語指示と低レベルのコマンドを出力するモーション コントローラーとの間の橋渡しとして足の接触パターンを使用する新しいアプローチを提案しました。
足の接地パターンとは、四足歩行エージェントが移動中に足を地面に置く順序と方法を指します。これを基に、研究者たちは、ユーザーがさまざまな動作を柔軟に考案できるインタラクティブな四足歩行ロボット システムを開発しました。たとえば、ユーザーは簡単な言語を使用して、ロボットに歩く、走る、ジャンプする、その他の動作を実行するよう命令できます。 彼らの貢献には、LLM プロンプト設計、報酬関数、および SayTap コントローラーが実行可能な接触パターン分布を使用できるようにする方法が含まれます。 この研究では、SayTap コントローラーがさまざまな動作パターンを実現できること、そしてこれらの機能を実際のロボット ハードウェアに転送できることが示されました。 SayTapメソッドSayTap メソッドは、0 と 1 で構成される 4 XT マトリックスである接触パターン テンプレートを使用します。0 はエージェントの足が空中にあることを意味し、1 は足が地面の上にあることを意味します。マトリックスの各行は、上から下に向かって、左前足部 (FL)、右前足部 (FR)、左後足部 (RL)、右後足部 (RR) の足の接触パターンを示します。 SayTap の制御周波数は 50 Hz です。つまり、0 または 1 はそれぞれ 0.02 秒間続きます。この研究では、望ましい足の接触パターンを、サイズ L_w、形状 4 X L_w の周期的なスライディング ウィンドウとして定義します。このスライディング ウィンドウは、接触パターン テンプレートから四足歩行ロボットの地面シグネチャを抽出します。これは、時間 t + 1 から t + L_w の間にロボットの足が地面の上にあるか空中にあるかを示します。次の図は SayTap メソッドの概要を示しています。 SayTap メソッドの概要 SayTap によって導入された必須の足接触モデルは、自然言語のユーザー コマンドとモーション コントローラー間の新しいインターフェイスとして機能します。モーション コントローラは、主要なタスク (指定された速度に従うなど) を実行し、達成された足の接触パターンが目的の接触パターンに可能な限り近くなるように、特定の時間にロボットの足を地面に配置するために使用されます。 これを実現するために、モーション コントローラーは、各タイム ステップで、目的の足の接触パターン、固有受容感覚データ (関節の位置や速度など)、およびタスク関連の入力 (ユーザー固有の速度コマンドなど) を入力として受け取ります。 DeepMind は強化学習を使用してモーション コントローラーをトレーニングし、それをディープ ニューラル ネットワークとして表現しました。コントローラのトレーニング中に、研究者はランダムジェネレータを使用して望ましい足の接触パターンをサンプリングし、望ましい足の接触パターンを実現する低レベルのロボットアクションを出力するようにポリシーを最適化しました。テスト中、LLM はユーザー コマンドを足の接触パターンに変換するために使用されます。 SayTap は、自然言語によるユーザー指示と低レベルの制御コマンドの間の橋渡しとして足の接触パターンを使用します。 SayTap は、単純で直接的な指示 (「ゆっくり前へ進みなさい」など) とあいまいなユーザー コマンド (「朗報です。今週末はピクニックに行きます!」など) の両方をサポートします。四足歩行ロボットは、強化学習ベースのモーション コントローラーを通じてコマンドに応答するようになります。 研究では、適切に設計されたプロンプトを使用すると、ユーザー コマンドが構造化されていないか曖昧な場合でも、LLM はユーザー コマンドを特別にフォーマットされた足接触パターン テンプレートに正確にマッピングできることが示されました。訓練中、研究者らはランダムパターンジェネレーターを使用して、特定の歩行タイプ G に基づいて、サイクル内でパターン長 T と足と地面の接触率が異なるさまざまな接触パターンテンプレートを生成し、モーションコントローラーが広範囲のモーションパターンを学習して、より優れた一般化機能を獲得できるようにしました。詳細については論文を参照してください。 実験結果LLM は、3 つの一般的な足の接触パターンのコンテキスト サンプルのみを含むシンプルなプロンプトを使用して、さまざまな人間のコマンドを接触パターンに正確に変換し、ロボットの動作を明示的に指定していない状況にも一般化できます。 SayTap プロンプトはシンプルでコンパクトであり、次の 4 つのコンポーネントで構成されています。 (1)LLMが達成すべき任務を説明した一般的な記述 (2)歩行の定義。これは法学修士課程の学生に四足歩行と感情との関連についての基礎知識を思い出させるために使用される。 (3)出力形式の定義 (4)LLMが文脈の中で学習できるように例を示す。 研究者らはまた、ロボットが前進または後退、高速または低速で移動したり、静止したりできるように、5 つの速度を設定しました。 LLM の SayTap プロンプト。青いテキストは説明のみを目的としており、LLM への入力ではありません。 シンプルで直接的な指示に従う 次のアニメーションは、SayTap が直接コマンドと明確なコマンドを正常に実行した例を示しています。一部のコマンドは 3 つのコンテキスト例には含まれていませんが、それでも LLM が事前トレーニング フェーズで学習した内部知識を表現するようにガイドできます。このとき、プロンプトの「歩行定義モジュール」が使用されます。これは、上記のプロンプトの 2 番目のモジュールです。 構造化されていない、または曖昧な指示に従う しかし、さらに興味深いのは、SayTap が構造化されていない曖昧な指示を処理できる点です。ほんの少しの促しで、ロボットは、ワクワクするニュース(「ピクニックに行こう!」など)を聞いた後に飛び跳ねるなど、特定の歩き方を一般的な感情的印象と関連付けることができました。また、地面が非常に熱いと伝えられると、ロボットは足が地面に触れるのを最小限に抑えるために素早く動くといったシナリオを正確に提示することもできます。 結論と今後の課題SayTap は、ユーザーがさまざまな移動動作を柔軟に策定できる四足ロボット用のインタラクティブ システムです。 SayTap は、自然言語と低レベル コントローラー間のインターフェイスとして、望ましい足の接触パターンを導入します。新しいインターフェースはわかりやすく、かつ柔軟性があり、直接的な指示と、ロボットの動作を明示的に記述しないコマンドの両方をサポートします。 DeepMind の研究者は、今後の主要な研究の方向性として、特定の感情を暗示するコマンドによって LLM が望ましい歩行を出力できるかどうかをテストすることだと述べています。上記の結果の歩行定義モジュールでは、研究者は幸せな感情とジャンプ歩行を関連付ける文章を提供しました。より多くの情報を提供できれば、暗黙の感情を解釈するなど、LLM のコマンド解釈能力を強化できる可能性があります。実験的評価では、幸せな感情を弾むような歩き方に結び付けることにより、ロボットは曖昧な人間の指示に従う際によりダイナミックに見えるようになった。もう一つの興味深い将来の研究方向は、ビデオやオーディオなどのマルチモーダル入力を導入することです。理論的には、これらの信号から変換された足の接触パターンは、ここで提案された新しいワークフローにも適しているはずであり、より興味深い使用例が生まれることが期待されます。 |
<<: GPT-5 も 4.5 もなく、2 か月後の OpenAI の最初の開発者会議では何がリリースされるのでしょうか?
Red Hat Inc. は本日、情報技術自動化のための生成 AI サービスである IBM Wats...
AI ビデオ生成は、2024 年には次の最先端分野になる可能性があります。過去数ヶ月を振り返ると、R...
Databricksは7月10日、ビッグデータ分析プラットフォームSparkが使用するAIモデルSD...
バッチ正規化は、ディープラーニング分野における大きな進歩の 1 つであり、近年研究者によって議論され...
今日、ますます多くのサーバーベンダーが、人工知能を活用したサーバー自動化テクノロジーの開発に取り組ん...
マルチモーダル大規模言語モデルは、強力な画像理解および推論機能を発揮します。しかし、現在の観察に基づ...
[[336019]]コールド スタート アルゴリズムは、トークン バケット アルゴリズムに基づいて実...
アプリケーションによって処理されるデータの量は増加し続けています。データの増加は、ストレージ機能の拡...
今後 15 年間で、人工知能によって米国の雇用が 40% から 50% 減少すると私は予測しています...
アルゴリズムを実装する場合、アルゴリズムの複雑さは通常、時間の複雑さと空間の複雑さという 2 つの側...
IDG Capital の投資家は、神経科学の専門家や最先端技術の起業家とともに、エネルギーと専門...
過去2週間、OpenAIの創設者サム・アルトマン氏は取締役会により解雇され、関連メンバーはマイクロソ...