Google は、ロボット犬に曖昧な指示を理解させるため、大型モデルを使用しています。

人間と四足歩行ロボットのシンプルで効果的な相互作用は、有能なインテリジェントアシスタントロボットを生み出す道であり、テクノロジーが私たちの想像を超えた方法で生活を向上させる未来の到来を告げています。このような人間とロボットの相互作用システムでは、四足歩行ロボットが自然言語のコマンドに応答できるようにすることが重要です。

大規模言語モデル (LLM) は最近急速に開発され、高レベルの計画を実行する可能性を示しています。しかし、特に本質的に不安定で高周波の制御信号を必要とする脚式ロボットの場合、関節角度の目標やモーターのトルクなどの低レベルのコマンドを LLM が理解するのは依然として困難です。そのため、既存の研究のほとんどは、ロボットの動作を決定するために LLM に高レベルの API が提供されていることを前提としており、これによってシステムの表現力が根本的に制限されています。

CoRL 2023 の論文「SayTap: 四足歩行のための言語」で、Google DeepMind と東京大学は、人間の自然言語指示と低レベルのコマンドを出力するモーションコントローラーとの間の橋渡しとして足の接触パターンを使用する新しいアプローチを提案しました。

論文アドレス: https://arxiv.org/abs/2306.07580
プロジェクトウェブサイト: https://saytap.github.io/

足の接地パターンとは、四足歩行エージェントが移動中に足を地面に置く順序と方法を指します。これを基に、研究者たちは、ユーザーがさまざまな動作を柔軟に考案できるインタラクティブな四足歩行ロボットシステムを開発しました。たとえば、ユーザーは簡単な言語を使用して、ロボットに歩く、走る、ジャンプする、その他の動作を実行するよう命令できます。

彼らの貢献には、LLM プロンプト設計、報酬関数、および SayTap コントローラーが実行可能な接触パターン分布を使用できるようにする方法が含まれます。

この研究では、SayTap コントローラーがさまざまな動作パターンを実現できること、そしてこれらの機能を実際のロボットハードウェアに転送できることが示されました。

SayTapメソッド

SayTap メソッドは、0 と 1 で構成される 4 XT マトリックスである接触パターンテンプレートを使用します。0 はエージェントの足が空中にあることを意味し、1 は足が地面の上にあることを意味します。マトリックスの各行は、上から下に向かって、左前足部 (FL)、右前足部 (FR)、左後足部 (RL)、右後足部 (RR) の足の接触パターンを示します。 SayTap の制御周波数は 50 Hz です。つまり、0 または 1 はそれぞれ 0.02 秒間続きます。この研究では、望ましい足の接触パターンを、サイズ L_w、形状 4 X L_w の周期的なスライディングウィンドウとして定義します。このスライディングウィンドウは、接触パターンテンプレートから四足歩行ロボットの地面シグネチャを抽出します。これは、時間 t + 1 から t + L_w の間にロボットの足が地面の上にあるか空中にあるかを示します。次の図は SayTap メソッドの概要を示しています。

SayTap メソッドの概要

SayTap によって導入された必須の足接触モデルは、自然言語のユーザーコマンドとモーションコントローラー間の新しいインターフェイスとして機能します。モーションコントローラは、主要なタスク (指定された速度に従うなど) を実行し、達成された足の接触パターンが目的の接触パターンに可能な限り近くなるように、特定の時間にロボットの足を地面に配置するために使用されます。

これを実現するために、モーションコントローラーは、各タイムステップで、目的の足の接触パターン、固有受容感覚データ (関節の位置や速度など)、およびタスク関連の入力 (ユーザー固有の速度コマンドなど) を入力として受け取ります。 DeepMind は強化学習を使用してモーションコントローラーをトレーニングし、それをディープニューラルネットワークとして表現しました。コントローラのトレーニング中に、研究者はランダムジェネレータを使用して望ましい足の接触パターンをサンプリングし、望ましい足の接触パターンを実現する低レベルのロボットアクションを出力するようにポリシーを最適化しました。テスト中、LLM はユーザーコマンドを足の接触パターンに変換するために使用されます。

SayTap は、自然言語によるユーザー指示と低レベルの制御コマンドの間の橋渡しとして足の接触パターンを使用します。 SayTap は、単純で直接的な指示 (「ゆっくり前へ進みなさい」など) とあいまいなユーザーコマンド (「朗報です。今週末はピクニックに行きます!」など) の両方をサポートします。四足歩行ロボットは、強化学習ベースのモーションコントローラーを通じてコマンドに応答するようになります。

研究では、適切に設計されたプロンプトを使用すると、ユーザーコマンドが構造化されていないか曖昧な場合でも、LLM はユーザーコマンドを特別にフォーマットされた足接触パターンテンプレートに正確にマッピングできることが示されました。訓練中、研究者らはランダムパターンジェネレーターを使用して、特定の歩行タイプ G に基づいて、サイクル内でパターン長 T と足と地面の接触率が異なるさまざまな接触パターンテンプレートを生成し、モーションコントローラーが広範囲のモーションパターンを学習して、より優れた一般化機能を獲得できるようにしました。詳細については論文を参照してください。

実験結果

LLM は、3 つの一般的な足の接触パターンのコンテキストサンプルのみを含むシンプルなプロンプトを使用して、さまざまな人間のコマンドを接触パターンに正確に変換し、ロボットの動作を明示的に指定していない状況にも一般化できます。

SayTap プロンプトはシンプルでコンパクトであり、次の 4 つのコンポーネントで構成されています。

（１）LLMが達成すべき任務を説明した一般的な記述

（２）歩行の定義。これは法学修士課程の学生に四足歩行と感情との関連についての基礎知識を思い出させるために使用される。

（３）出力形式の定義

（4）LLMが文脈の中で学習できるように例を示す。

研究者らはまた、ロボットが前進または後退、高速または低速で移動したり、静止したりできるように、5 つの速度を設定しました。

 General instruction block You are a dog foot contact pattern expert. Your job is to give a velocity and a foot contact pattern based on the input. You will always give the output in the correct format no matter what the input is. Gait definition block The following are description about gaits: 1. Trotting is a gait where two diagonally opposite legs strike the ground at the same time. 2. Pacing is a gait where the two legs on the left/right side of the body strike the ground at the same time. 3. Bounding is a gait where the two front/rear legs strike the ground at the same time. It has a longer suspension phase where all feet are off the ground, for example, for at least 25% of the cycle length. This gait also gives a happy feeling. Output format definition block The following are rules for describing the velocity and foot contact patterns: 1. You should first output the velocity, then the foot contact pattern. 2. There are five velocities to choose from: [-1.0, -0.5, 0.0, 0.5, 1.0]. 3. A pattern has 4 lines, each of which represents the foot contact pattern of a leg. 4. Each line has a label. "FL" is front left leg, "FR" is front right leg, "RL" is rear left leg, and "RR" is rear right leg. 5. In each line, "0" represents foot in the air, "1" represents foot on the ground. Example block Input: Trot slowly Output: 0.5 FL: 11111111111111111000000000 FR: 00000000011111111111111111 RL: 00000000011111111111111111 RR: 11111111111111111000000000 Input: Bound in place Output: 0.0 FL: 11111111111100000000000000 FR: 11111111111100000000000000 RL: 00000011111111111100000000 RR: 00000011111111111100000000 Input: Pace backward fast Output: -1.0 FL: 11111111100001111111110000 FR: 00001111111110000111111111 RL: 11111111100001111111110000 RR: 00001111111110000111111111 Input:

LLM の SayTap プロンプト。青いテキストは説明のみを目的としており、LLM への入力ではありません。

シンプルで直接的な指示に従う

次のアニメーションは、SayTap が直接コマンドと明確なコマンドを正常に実行した例を示しています。一部のコマンドは 3 つのコンテキスト例には含まれていませんが、それでも LLM が事前トレーニングフェーズで学習した内部知識を表現するようにガイドできます。このとき、プロンプトの「歩行定義モジュール」が使用されます。これは、上記のプロンプトの 2 番目のモジュールです。

構造化されていない、または曖昧な指示に従う

しかし、さらに興味深いのは、SayTap が構造化されていない曖昧な指示を処理できる点です。ほんの少しの促しで、ロボットは、ワクワクするニュース（「ピクニックに行こう！」など）を聞いた後に飛び跳ねるなど、特定の歩き方を一般的な感情的印象と関連付けることができました。また、地面が非常に熱いと伝えられると、ロボットは足が地面に触れるのを最小限に抑えるために素早く動くといったシナリオを正確に提示することもできます。

結論と今後の課題

SayTap は、ユーザーがさまざまな移動動作を柔軟に策定できる四足ロボット用のインタラクティブシステムです。 SayTap は、自然言語と低レベルコントローラー間のインターフェイスとして、望ましい足の接触パターンを導入します。新しいインターフェースはわかりやすく、かつ柔軟性があり、直接的な指示と、ロボットの動作を明示的に記述しないコマンドの両方をサポートします。

DeepMind の研究者は、今後の主要な研究の方向性として、特定の感情を暗示するコマンドによって LLM が望ましい歩行を出力できるかどうかをテストすることだと述べています。上記の結果の歩行定義モジュールでは、研究者は幸せな感情とジャンプ歩行を関連付ける文章を提供しました。より多くの情報を提供できれば、暗黙の感情を解釈するなど、LLM のコマンド解釈能力を強化できる可能性があります。実験的評価では、幸せな感情を弾むような歩き方に結び付けることにより、ロボットは曖昧な人間の指示に従う際によりダイナミックに見えるようになった。もう一つの興味深い将来の研究方向は、ビデオやオーディオなどのマルチモーダル入力を導入することです。理論的には、これらの信号から変換された足の接触パターンは、ここで提案された新しいワークフローにも適しているはずであり、より興味深い使用例が生まれることが期待されます。

<<: GPT-5 も 4.5 もなく、2 か月後の OpenAI の最初の開発者会議では何がリリースされるのでしょうか?

>>: