数時間のビデオを視聴するだけで人間のチャットを真似できますか? Facebookのロボットは表情が豊か

数時間のビデオを視聴するだけで人間のチャットを真似できますか? Facebookのロボットは表情が豊か

ヒューマノイドロボットの類似性は人間の好感度に比例するわけではありません。 1970年に日本のロボット工学の専門家である森政弘氏が提唱した不気味の谷理論によれば、物体の擬人化の度合いが増すにつれて、人間の反応は増加-減少-増加の曲線を描くという。擬人化の度合いが一定レベルに達すると、人間に対する好感度は大幅に低下し、擬人化されたキャラクターが怖いと感じるようになることもあります。

不気味の谷理論/Wikipedia

Facebook は、できるだけ早くロボットが不気味の谷を乗り越えられるように取り組んでいます。

最近、Facebook Artificial Intelligence Lab (FAIR) の研究者たちは、感情表現が得意なロボットを開発しました。これは、人間の Skype チャット ビデオを数時間観察した後、人間の表情を模倣できる AI アルゴリズムによって制御される仮想アニメーション ロボットです。

68面ランドマークブロック

人間が感情を表現する方法をより正確にシミュレートするために、研究者はアニメーション内の顔を68のブロックに分割し、Skype会話中にこれらの部分の変化を観察することに焦点を当てました。会話中、人間のうなずきやまばたき、口の動きの変化などが反映され、ロボットはこれらの表情の変化を学習します。

上の写真は会話中の人間の表情を示しており、下の写真は表情を追跡するシステムを示している。

しばらく観察すると、アニメーション化されたロボットは、可能性のある表情をリアルタイムで予測できるようになります。ビデオ内の人物が笑っている場合、ロボットは口を開けたり、首を傾げたりすることもあります。

テスト結果

その後、Facebookの研究者らは一連のテストを実施した。ボランティアたちは、人間同士の会話のオリジナルビデオや、訓練されたロボットの模擬応答を視聴し、ロボットのパフォーマンスを自然でリアルだと評価した。

写真の線の高さは、口(左)と目(右)の開閉度合いを示しています。ユーザー(上)とエージェント予測(下)の表情は基本的に同じであることがわかります。

現時点ではアルゴリズムはアニメーションでしか表示できないため、アルゴリズムによってサポートされるヒューマノイドロボットがどのように反応するかは不明です。

イスラエルのテルアビブ大学の博士課程の学生、ゴレン・ゴードン氏は、顔の表情によるコミュニケーションの基本ルールを学ぶだけでは、本当の会話の相手を作るのに十分ではないと語る。「本当の表情は、考えていることや感じていることに基づいているのです。」

「この場合、フェイスブックのシステムは平均的な性格を作り出している」とカー​​ネギーメロン大学言語技術研究所の准教授、ルイ・フィリップ・モレンシー氏は言う。将来、ロボットはより複雑な性格を持つようになるか、会話相手に応じて性格を調整できるようになるかもしれません。

ロボットは人間同士のやり取りにおけるこうした微妙な要素をうまく処理できないとゴードン氏は言う。彼はまた、ロボットに対する期待を表明した。「ある時点で、私たちは不気味の谷を抜けて向こう側へ歩み出るだろう。」

[[202711]]

大阪大学知能ロボット研究所が開発したヒューマノイド型女性アナウンサー「オトナロイド」

Facebook社は今月24日にバンクーバーで開催されるIROS 2017でこの技術を実演する予定で、この技術に関する論文「Learn2Smile: 観察を通じて非言語的インタラクションを学ぶ」を公開している。

抽象的な

本稿では、人間とエージェントの対面コミュニケーションにおける非言語的な顔の手がかりを研究し、ユーザーの表情に基づいてエージェントの顔の感情表現を自動的に学習して更新する方法を提案します。私たちは、外部の人間による監督なしに、人間同士が会話している何百ものビデオを使ってニューラル ネットワークをトレーニングしました。

実験結果では、当社のインテリジェントな顔注釈モデルが人間の表情を長期間にわたって予測できることが示されており、比較結果からも、このモデルがベースライン手法よりも大幅に優れていることが示されています。 ***、モデルのパフォーマンスをより深く理解するために、より詳細な調査を実施しました。

この研究のデータセットは、この分野の他の研究者が利用しやすいように公開されています。

<<:  注目を浴びるAIとゲームは、どんな火花を散らすことができるのでしょうか?

>>:  AIの冷却:ディープラーニングは万能薬ではない

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

コレクションにおすすめ!素晴らしい AWS 機械学習ツールキットの概要

[[330619]]テクノロジーとエコロジーの継続的な進化、およびアプリケーション シナリオの継続的...

AIに「子犬」を認識させますか? Facebookは変化を感知できるAIを構築

[[389144]]今まで見たことのない犬種や色であっても、私たちは一目見てその犬を認識することがで...

...

...

...

Intel と AMD はパフォーマンスの向上のために AI PC に期待していますが、消費者はそれらを買い替える資金を持っているのでしょうか?

11月2日、新型コロナウイルス感染症のパンデミックをきっかけに2年間成長を続けてきたパソコン(PC...

...

人工知能によるモザイク除去ディープ CNN デノイザーと多層隣接コンポーネント埋め込みによるモザイク除去

モザイク除去のための人工知能、ディープ CNN デノイザーとモザイク除去のための多層隣接コンポーネン...

...

Transformerが3Dモデリングに革命を起こし、MeshGPT生成結果がプロのモデラーやネットユーザーに衝撃を与える:革命的なアイデア

コンピュータグラフィックスでは、「三角メッシュ」は 3D 幾何学的オブジェクトの主な表現であり、ゲー...

百度グループ副社長ウー・ティエン氏:文心ビッグモデル3.5は機能面でChatGPT3.5を上回った

7月19日、「新バージョンの文心易言の性能はChatGPT 3.5を上回り、これは我が国の関連技術作...

LLM評価レビュー論文が出版され、3つの側面から包括的にまとめられ、データベースも掲載されている

大規模言語モデル (LLM) は、学界や産業界から幅広い注目を集めています。有用な LLM を開発す...

RangePerception: Range View3D 検出への新しいアプローチ!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...