ボストンダイナミクスは、ChatGPTなどの大規模モデルトレーニングを使用して、スポットロボット犬を「話すツアーガイド」に変えました。

▲ 画像出典: ボストンダイナミクス YouTube 動画のスクリーンショット

ボストン・ダイナミクスは10月27日、数時間前に公式YouTubeチャンネルに、ボストン・ダイナミクスのロボット犬の「言語能力」を実演する動画をアップロードした。このビデオでは、ボストン・ダイナミクスのロボット犬が「ツアーガイド」として機能し、スタッフを同社のさまざまな施設に案内している。

このロボット犬は現在、質問に答えることができ、音を発すると同時に「口」を開けることもできる。ボストンのロボット犬が現在話せるようになったのは、エンジニアがChatGPTのAPIとオープンソースの大規模言語モデルを使用してトレーニングしたためだと報じられています。同時に、エンジニアたちはロボット犬にスピーカーを搭載し、テキスト読み上げ機能も追加した。動画に出てくるロボット犬は「イギリス訛り」で従業員に旅を始めてもよいか尋ね、これから訪れる充電ステーションを紹介している。

ボストン・ダイナミクスの主任ソフトウェアエンジニア、マット・クリンゲンスミス氏によると、前述の「ツアーガイド」機能を実現するために、チームはロボット犬に、同社の施設内のすべての部屋に関する情報を含んだ非常に短いスクリプトを提供したという。次に、ロボット犬はスクリプトを体に搭載したカメラなどのハードウェアからの画像と組み合わせ、反応する前に見たものに関する詳細な情報を取得できるようにします。

ボストンのロボット犬の今回の能力は、単に「ツアーガイド」になるだけではありません。 「発電機は、私の魂のように、喜びのない部屋でブンブンと鳴っている」といった詩を朗読することもできます。かつて、スタッフがロボット犬の「両親」は誰なのかと尋ねると、ロボット犬はオフィスに展示されていた古いロボット犬を指さした。

IT Homeによる以前の報道によると、ボストン・ダイナミクスのロボット犬は、タンブリングダンス、インテリジェントなルート再計画、パルクール、ビール注ぎなど、さまざまなスキルを披露したという。 2020年12月、現代自動車はボストン・ダイナミクスを10億ドルで買収し、同社の親会社となると発表した。

<<: 検索拡張生成による AI 幻覚問題の解決

>>: GraphAlign: グラフマッチングによるマルチモーダル 3D オブジェクト検出のための正確な特徴アライメント