音声によるやりとりをより自然にするにはどうすればよいでしょうか?まずはこれら 6 つの重要な知識ポイントをマスターしましょう。

最近、ロボットに関する非常に良い記事をいくつか読んだので、自分の考えを書き留めながら翻訳してみようと思いました。日々の仕事では、ロボットプラットフォーム、マルチラウンドシナリオ、さまざまなパーサーに没頭しています。さまざまな角度からの刺激が必要であり、新しいアイデアが生まれるかもしれません。

[[284133]]

△ Unsplash の Franck V. による写真

今日の記事は、Anna Prist の Medium の投稿「チャットボットの音声を自然にする方法」です。

まずは、ロボットの会話をデザインする際にアンナさんが挙げた6つのポイントをまとめてみましょう。

コンテキスト（ロボットは会話中にコンテキストを理解する必要があります）
個性（ロボットには独自の個性が必要です）
簡潔（ロボットの文言は簡潔かつ明確である必要があります）
柔軟性（ユーザーの表現の多様性を考慮する必要がある）
自然さ（丁寧な表現など、人間の会話における自然な表現の使用）
イニシアチブ（会話をリードし、会話を終わらせない）

私たちはテクノロジーの急速な革新に慣れすぎていて、テクノロジーがなければ未来がどうなるか想像もできません。私たちが前進し続けるにつれて、インタラクティブデバイスとインタラクティブデザインは常に改善されていきます。これらの小説や映画のおかげで、私たちは機械とやりとりする方法を知っています。トム・クルーズが映画でやったように、音声コマンド、ジェスチャー、仮想スクリーンを使うことができます。

（YouTubeで「マイノリティ・リポートのジェスチャーベースのユーザーインターフェース」と検索すると視聴できます）

日常のやり取りでは、タッチ、音声、ジェスチャーなどのやり取り方法が使用されますが、これらは私たちにとって簡単で、学習する必要はありません。「自然」という言葉が使われているのは、相互作用が人間の行動の基本的な部分だからです。私たちは生まれて最初の日から、自然に周囲のあらゆるものと関わり、物を掴んだり動かしたり、話したりコミュニケーションをとったりしようとします。これらのインタラクション方法は、人間とコンピュータのインタラクションにも自然に反映されます。

マイクロソフトの主席研究員であるビル・バクストン氏はかつて、音声ユーザーインターフェースは、特に車の運転時には最も自然なユーザーインターフェースかもしれないと述べました。当然ですが、ハンドルに手を置き、前方の道路に注意を払っているときです。音を通じて大量の情報を伝達することができ、これが現在の状況で最も効果的なコミュニケーション（インタラクション）方法となります。技術の進歩により、私たちは機械とコミュニケーションをとり、対話することが可能になりました。

音声は人間に共通するスキルなので、ユーザーがすでに音声を習得していると想定できます。 VUI 開発者にとっての次の課題は、会話/スキル/動作を作成し、チャットボット/仮想アシスタントがコミュニケーションして役立つようにトレーニングすることです。

この課題は非常に困難です。なぜなら、機械が人間の意図を理解するには、会話の文脈にも接続して理解する必要があるからです。自然に聞こえるためには、個性なども必要です。以下に、チャットボットや仮想アシスタントを作成するために使用できるヒントをいくつか示します。

コンテクスト

人間は文脈をとても自然に使うので、それについて考える必要すらありません。私たちは、さまざまな場所で、さまざまな人々やさまざまな方法でコミュニケーションをとる方法を自然に知ることができます。私たちは、子ども、両親、友人、同僚と話すときには、それぞれ異なる口調やアプローチを使います。私たちは、家では大声で率直に話すことができますが、公共の場では外見を保ち、口調や言葉遣いに注意します。

チャットボットや仮想アシスタントには、このような状況に関する知識や認識がありません。これが、この「コンテキスト」について言及する理由です。ユーザーのクエリ記録/回答、ユーザーの承認後に取得された情報、ユーザーが表現した情報などの基本的なデータ情報。ロボットがすでに知っていることについて質問したり、経験豊富なユーザーに初心者向けのガイダンスを提供し続けたりしないでください。

人格

チャットボットや仮想アシスタントに個性があると、自然に聞こえます。たとえば、Alexa は非常に興味深く、さまざまなことについて独自の意見を持っています。さらに、国によってその見解や好みは異なる場合があります。たとえば、アメリカで「どんなビールが好きか」と尋ねるのと、ドイツで尋ねるのでは違います。 Amazon の開発者が Alexa の開発に着手したとき、彼らが望んだのは、Alexa が感情のない機械のように聞こえないようにすることだけでした。しかし、こんなに多くの人がアレクサの性格に夢中になるとは思っていませんでした。 Alexa は、その個性により、ユーザーとのやり取りにおける信頼も高めます。この原則により、応答を自動的に生成する機能が多少制限されますが、ユーザーエクスペリエンスにとって重要です。

簡潔

単語が短いと認知負荷が軽減され、時間が節約され、より自然に聞こえます。ユーザーがすでに知っている事実や指示を省略し、本当に重要な情報を提示するためにテキストを短くします。ロボットにディスプレイがある場合は、画面に情報を表示して要約したり非表示にしたりすることもできます。

柔軟性

会話中にユーザーがいつでも情報を変更することを想定する必要があります。ユーザーもさまざまな方法で質問に答えます。

自然

ロボットの会話は、繰り返しや官語を避け、自然なものでなければなりません。暗黙的な確認とアクティブな監視テクニックを可能な限り使用して、取得した重要な情報とコンテンツをユーザーに伝えます。また、「さようなら」「ありがとう」「お願いします」などの丁寧な表現も忘れないでください。

積極的

ユーザーが次に何をすべきかわからない状況を回避するには、監視ダイアログボックスで抜け道 (次のステップ) を考慮する必要があります。たとえば、質問や誘導サインを通じて会話を進めたり、関連するボタンの説明を提供したりします。

会話の設計は技術開発のレベルによって制限されますが、これらのテクニックを使用すると、ある程度会話を簡単かつ自然にすることができます。この分野はまだ比較的新しいため、私たちは皆、試行錯誤から学ぶ必要があります。そのため、間違いを恐れないでください。

覚えておいてください、良い会話は自然な会話です。

上記は翻訳内容です

他の

次に、さらにいくつかの点についてお話ししたいと思います。

ロボットの性格について

ロボットと会話する場合、一般的には、オープンドメインチャット、タスク主導の会話、質疑応答 (FAQ)、推奨の 4 種類の会話が行われます。

しかし、多くの場合、これらの異なるタイプのサポートは異なるチームから提供されます。それぞれのチームがロボットに異なる機能を与えました。このロボットがユーザーと会話をすると、ユーザーは明らかに不自然に感じるでしょう。ちょっと考えてみましょう。友達とチャットしているときに、相手が突然友達の彼氏/彼女になって、タイピングしたり話したりし始めたら、たいていはそれを感じます。

柔軟性について

人間の言語表現は実に柔軟で豊かです。同じ単語でも、文脈や語調によって意味が異なります。そのため、ロボットが人間の言語を理解するのは非常に困難です。

シーンについて

同じ機能であっても、シナリオが異なれば人間には異なる要件があります。たとえば、最近私が Tmall Genie とやり取りしたときに感じたことはこれです。

時々、午前 2 時頃など遅く寝ることがあります。その場合は、「Tmall Genie、午前 8 時にアラームを設定して」と言います。すると、Tmall Genie が元の音量で応答します。はい、日中に楽しく大音量で音楽を聴いていたら、Tmall Genie の非常に大きな声に怖がっていたでしょう (私は何度も怖がったことがあります)。

それで、私は音量をどんどん下げていきました。ところが、朝7時59分頃、突然Tmall Genieが「アラームが鳴ります」と普通の音量で（すでに音量を下げていたにもかかわらず）言ったので、この文章で突然目が覚めてしまいました...

そのため、アラームの設定などの機能については、さまざまなシナリオでより自然で、配慮があり、スマートなものになることを願っています。

さて、今日はここまでです。

<<: アヴネットは18年連続で「トップ10ベスト国際ブランドディストリビューター」の称号を獲得しました。

>>: 2020年職場のAIスキルランキング：TensorFlowが人気上昇、Pythonが最も人気、マーケティング部門も学習中

音声によるやりとりをより自然にするにはどうすればよいでしょうか?まずはこれら 6 つの重要な知識ポイントをマスターしましょう。

他の

AI、ブロックチェーン、IoT、5Gの未来は統合だ

AlphaFold2の最初の公開PyTorchバージョンが複製可能になりました。コロンビア大学のオープンソースで、1,000以上のスターが付いています。

GitHub はオープンソースコミュニティをイライラさせます!非フリーの Copilot はコピー方法しか知りません?我慢できない

SVM の原理に関する詳細なグラフィックチュートリアル!カーネル関数を自動的に選択する1行のコードと実用的なツールがあります

ディープマインドの共同創設者が新たなチューリングテストを提案：AIで10万ドルを100万ドルに増やす

MLCommonsがAI安全ワーキンググループを発表

フロントエンドエンジニアは、これらの18のトリックをマスターすることで、ブラウザでディープラーニングを習得できます

推薦する

自動運転シミュレーションテスト技術は実際の街頭シーンをシミュレートできる

液体ロボットはマーケティングの策略か、それとも自動化の未来か?

人工知能が「人工知能」にならないようにするための鍵は、まだ人間の脳にあるかもしれない

GPT-3.5 を上回る Google Gemini は無料でご利用いただけます。 20以上の言語をサポートする最も強力なコード生成ツールが利用可能になりました

あなたはまだこれらの仕事をしていますか？マシンビジョンと人工知能により、今後10年間で失業することになるかもしれません

人工知能は将来の仕事や生活にどのような影響を与えるのでしょうか?

コードスイッチングに7億5000万ドル？ Facebook TransCoder AI は 1 つで十分です。

機械学習とコンピュータービジョンのためのトップ 20 画像データセット

ゼロサンプルのパフォーマンスが小サンプルのパフォーマンスを上回り、Google の新しい 1370 億パラメータモデルは GPT-3 よりも強力

テスラAIディレクター：33年前にルカンのニューラルネットワークを再現したが、今とあまり変わらない

知識共有: 管理距離と最大ホップ数の違いに関するルーティングアルゴリズムの分析

大規模機械学習の台頭と「ゼロトラスト」アーキテクチャの出現、2021年の9つの主要な技術トレンド