ロボットは人間の笑顔を真似することができますが、この笑顔はいつも...

ロボットは人間の笑顔を真似することができますが、この笑顔はいつも...

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

ロボットは、2 つの空のプラスチック ビーズをつけたポーカー フェイスでしか人間と向き合うことができないのでしょうか?

必ずしもそうとは限りません。あなたに微笑みかけることもできます!

下の「リトルブルーマン」は柔らかい顔をしており、笑顔など人間の表情を真似ることができます。

このような:

「ぎこちない笑顔」、「ニヤニヤ笑い」…すべてが、ロボットの「氷のように冷たく、鶏のように硬い」イメージを変えた。

しかし、通常は金属や硬質プラスチックで作られているロボットは、どのようにして笑うのでしょうか?

ワイヤーとモーターで作られた人工「筋肉」

コロンビア工科大学のクリエイティブマシン研究所の研究者たちは、ロボットと人間の相互作用に長い間興味を抱いてきました。

表情は信頼関係を築く上で大きな役割を果たします。介護施設や病院など、人間と密接に関わる場所でロボットが使われることが増えており、より敏感で「冷たい」ロボットではなく「温かさ」を持ったロボットが求められています。

そこで研究者たちは、人間の表情を真似ることができるEVAと呼ばれる上記のロボットを 5 年かけて開発しました。

EVA の機械設計には、以下に示すように4 つのモジュールが含まれています。

A は EVA を駆動するモーター サーボ モジュールです。このモジュールは下部の Raspberry Pi 4 によって制御されます。 「皮膚」はナイロンロープを介して10個のモーターに接続されており、対応する表情を作るように制御できます。

B は前頭骨から分離された、6 度の回転自由度を持つ眼モジュールです。

C は RGB カメラで、人間の表情のランダムなデータを収集するために使用されます。

Dは6自由度を持つネックモジュールです。

その中で、ロボットの頭部全体を人間の頭蓋骨のサイズに収まるほどコンパクトにし、なおかつ多様な表情を生み出せるだけの機能を備えたシステムを設計するのは容易ではありません。

回路、センサー、モーターなどのさまざまな大型ガジェットを収容する必要があります。

この目的のために、研究者たちは、 3D プリントを使用して複雑な形状の部品を製造し、それらの部品を EVA の脳にシームレスに統合できるようにすることを決定しました。

EVA はナイロンケーブルとモーターで作られた人工「筋肉」を使用して顔の特定のポイントを引っ張り、人間の顔の皮膚と骨のさまざまな部分にある 42 を超える小さな筋肉の動きを模倣して、怒り、嫌悪、恐怖、喜び、悲しみ、驚きの 6 つの基本的な感情、さらにはより微妙な表情を表現します。

「ある日、私が自分の用事に気を取られていたとき、EVA が突然、私に大きな友好的な笑顔を見せました。それが単なる機械的な笑顔であることはわかっていましたが、私は反射的に笑顔を返していました。」

ディープラーニングは人間の表情を「読み取り」、反応する

上記の機械設計は、ロボット EVA が物理的にさまざまな表現を行うことができることを示しています。それで、どのようにして自律的に模倣を完了するのでしょうか?

それでは、このロボットのソフトウェア部分を公開しましょう。

人間の表情は非常に複雑で、事前に設定されたルールでは変化に適応できないため、研究者はいくつかのディープラーニングニューラルネットワークを使用してEVAの「脳」を構築しました。

この脳は、 2 つの能力を習得する必要があります。1 つは、人間の顔を「読み取る」ことによって、どのような表情をすべきかを知ること、もう 1 つは、顔の「筋肉」を制御して、これらの表情を表現できることです。

EVAに自身の「顔」がどのようなものかを教えるために、チームはEVAがさまざまな「顔」を作る様子を何時間もビデオで撮影した。

眉毛も動きますよ〜

そして、人間がZoomで自分自身の動画を観ているのと同じように、EVAの内部ニューラルネットワークは、動画クリップ内の自分の顔と筋肉の動きを「一致させる」ことを学習した。

EVA が自分の顔がどのように「動くか」という基本的な感覚を身に付ければ、カメラが捉えた表情と EVA 自身の表情を一致させることは難しくありません。

何度も改良と反復を繰り返した結果、EVA はついにカメラから人間の顔の「ポーズ」を読み取り、人間の表情を真似て反応する能力を獲得しました。

模倣プロセス全体は次のとおりです。

EVA の脳は主に、生成ネットワークと逆ネットワークの 2 つのニューラル ネットワークで構成されています。

通常の RGB カメラで撮影された顔画像が与えられると、システムはまず OpenPose を使用して顔のランドマークを抽出します

人間の姿勢認識プロジェクトである OpenPose は、畳み込みニューラル ネットワークと教師あり学習に基づき、Caffe をフレームワークとして使用して、米国のカーネギーメロン大学 (CMU) によって開発されたオープン ソース ライブラリです。

次に、人間の顔の顔のランドマークをロボットのサイズに正規化し、静的なロボットの顔画像と生成ネットワークに接続して、合成表情のロボット画像を生成します。

画像に基づいて、逆生成ネットワークがロボットに実行させるモーターコマンドを出力し、最終的にロボットの顔に人間の表情が現れます。

EVA の模倣品の別のグループを見てみましょう。

EVAは瞬きしたり首をひねったりすることはできるが、正面から見るとまだ少し表情が硬いことが分かった。

研究者らは、EVAはまだ実験段階であり、模倣することしかできず、顔の表情を通じて人間と実際にコミュニケーションをとるにはまだ遠いと指摘した。しかし彼らは、この技術がいつか実世界で有益な応用をもたらす可能性があると信じている。

この研究は2021年5月30日のICRAカンファレンスで発表され、ロボットの設計図はHardware-X(2021年4月)でオープンソース化されました。

著者について

EVAロボット研究チームは、中国人3人を含む5人の主要メンバーで構成されています。

ロボットソフトウェア部分のプロジェクトリーダーは、吉林大学を卒業し、現在はコロンビア大学の博士課程に在籍している陳博元氏です。彼の専攻はコンピュータサイエンスとテクノロジーで、研究分野にはロボット工学、コンピュータビジョン、機械学習などがあります。

[[403311]]

記事に登場する胡宇航氏もコロンビア大学の博士課程の学生だ。彼は厦門大学の譚嘉記学院を卒業し、学部在学中に数多くの国家特許を申請し、会社を設立して「科学技術の専門家」という称号を得た。

[[403312]]

Li Lianfeng、コロンビア大学、機械工学、ロボティクスおよび制御の修士。

[[403313]]

論文アドレス: https://arxiv.org/abs/2105.12724
プロジェクトウェブサイト: http://www.cs.columbia.edu/~bchen/aiface/

<<:  Redis に基づく分散ロックと Redlock アルゴリズム

>>:  インテリジェントロボットにはどのような主要なセンサー技術が使用されていますか?

ブログ    
ブログ    
ブログ    

推薦する

...

人工知能は消費者部門で何をもたらしましたか?

最近、北京にショッピングモールがオープンした。オープン当日、客を出迎えたのは「人」ではなく「ロボット...

AIと機械学習でデータセンターを強化

人工知能(AI)と機械学習は、インテリジェントデータセンターにおいてますます重要な役割を果たしていま...

インテリジェントロボットはCOVID-19の流行とどのように戦うのでしょうか?

【51CTO.comオリジナル記事】 COVID -19の流行がもたらした厳しい課題に直面して、科...

...

AIの限界を理解することがその可能性を実現する鍵となる

人工知能は多くの業界のワークフローを変革しました。デジタル顧客サービスアシスタント、自動運転車、無人...

GoogleのオープンソースAIは92%の精度で音を区別できる

[[249335]] VentureBeatによると、Googleの人工知能研究部門は音声認識におい...

2017 年グローバル人工知能人材ホワイトペーパー: 世界トップクラスの AI 人材の秘密を解明!

人工知能における競争は優秀な人材に基づいて行われます。国の将来の発展方向として、AI技術は経済発展、...

金融保険業界における人工知能の3つの重要なトレンド

[51CTO.com クイック翻訳] 変化は常に起こっており、将来の変化は予測可能です。保険市場は大...

AIがデータ統合の状況をどう変えるのか

生成 AI は統合の状況を変えています。 チームの経済性、速度、プロジェクト構造、配信モデルについて...

...

TensorFlow が機械学習開発に使用できるのはなぜですか?

機械学習は複雑な分野ですが、データの取得、モデルのトレーニング、予測の提供、将来の結果の改善のプロセ...

...

大規模な機械学習: データサイエンスを本番システムアーキテクチャに導入するための典型的なパターン

ここ数年、データサイエンスの概念は多くの業界で受け入れられてきました。データ サイエンス (科学的研...

自然言語処理はどのように機能しますか? NLPパイプラインの構築方法を段階的に教えます

コンピュータは構造化されたデータを理解するのが得意ですが、主に文化的習慣に基づいた人間の言語を理解す...