人間とコンピュータのインタラクション技術の現状と進化将来、私たちはどのように機械とコミュニケーションをとるのでしょうか

コンピューターやその他の機械は、生産性を高め、より多くのことを学び、お互いのつながりを保つことを可能にする素晴らしいツールです。しかし、それらを使用するには、何らかの方法でそれらと「通信」する必要があります。歴史的には、これはマウスとキーボード (またはタッチスクリーン) を使用した手動入力であり、コンピューターから返される内容を画面で読み取っていました。

[[338156]]

過去 10 年ほどの間に、音声認識と音声認識という、機械と対話する新しい方法が登場しました。しかし、この「機械と会話する」というモデルは将来も続くのでしょうか? もしそうなら、どのように発展していくのでしょうか?

技術ステータス

まず、現代のテクノロジーの現状を見てみましょう。人々は日常のほとんどのやり取りに依然としてキーボード、マウス、タッチスクリーンを使用していますが、音声ベースのやり取りに切り替える人が増えています。簡単なフレーズを使用して、一般的な検索エンジンで検索を実行できます。入力したい内容を声に出して話すと、携帯電話がそれをテキストに変換してくれます。顧客と直接コミュニケーションしたり対話したりできるデジタルサイネージを設置することもできます。

音声ベースのインタラクションは長年にわたって信じられないほど洗練されてきました。この技術の初期の頃は、基本的には運任せのゲームでした。ほとんどの場合、システムはあなたの話を正しく「聞き取れない」か、あなたが言おうとしていることを誤って解釈します。しかし、今日では、最も人気のあるデジタルアシスタントや音声認識プログラムは、人間の音声を人間と同じくらい正確に検出し、理解することができます。

これに伴い、人間は音声ベースの対話に徐々に慣れてきています。 2010 年には、デバイスに向かって「OK Google」や「Hey Alexa」などと言うのは馬鹿げていると思ったかもしれません。しかし、2020年には、それは当たり前のことになっています。実際、何らかの方法で定期的にマシンとやり取りしない人を見かけると、奇妙に感じます。

なぜ声が乗っ取られたのか

近年、音声認識がなぜこれほど目覚ましい成長と発展を遂げてきたのでしょうか? 考えられる説明はいくつかあります。まず第一に、音声は手で何かをするよりも便利です。運転中にハンドルから手を離さずに情報を入力したい場合は、単に「声に出して」考えて処理するだけで済みます。一日中タイピングして指が痛くなったら、音声ベースの入力に切り替えて手を休めることができます。リビングルームにいて、近くにデバイスがなくても、今見た番組の俳優の名前を知る必要がある場合は、質問を声に出して話すだけで、数秒で答えを得ることができます。

技術開発に関して言えば、音も簡単に実現できる分野です。これからわかるように、人間とコンピューターのインタラクションには、はるかに複雑で、完全に開発されるまでに数十年かかる可能性のある他のモードもありますが、実際には、音声検索はわずか数年ですでに習得されています。

消費者はメリットを認識し、テクノロジーは改善し続けています。したがって、音声ベースの機械との対話が新しい標準になったのは当然のことです。

スピーチに関する潜在的な問題

そうは言っても、長期的に見ても、音声ベースの機械対話にはいくつかの潜在的な問題があります。

データのプライバシー。あらゆる新しいテクノロジーはプライバシーに関する懸念を伴います。音声ベースの検索や音声認識技術は、私たちの身の回りにたくさん存在しています。私たちはスマートフォンを持ち、リビングの隅にスマートスピーカーを置いています。これらのシステムは、私たちが望まないときに会話を聞いているのでしょうか? どのようなデータを収集し、テクノロジー企業の幹部に送信しているのでしょうか?
誤解。近年の急速な進歩にもかかわらず、音声認識が失敗することがあります。これは、アクセントのある話し方をしたり、さまざまな理由で考えを完全に表現できない場合に特に当てはまります。
学習曲線。特に発話にまだ困難を抱えている人にとっては、アクセシビリティも問題となる可能性があります。最良の結果を得るには、明瞭で直接的な声で話し、各単語を正確に発音する必要があります。これはすべてのユーザーにとって直感的ではない可能性があります。
バックグラウンドノイズ。背景ノイズが多いと、高品質の音声認識でも不明瞭になる可能性があります。つまり、音声認識は特定の場所や状況でのみ最適であり、たとえば、ロックコンサートや建設現場では使用できません。
心理的影響。音声検索はまだ初期段階ですが、長期的には音声ベースの機械対話が心理的な効果をもたらすことがわかってくるでしょう。たとえば、何らかの感情的な愛着を感じずに機械と話すのは難しいかもしれませんし、機械とのやりとりの結果として、さまざまな方法で世界とやりとりすることを制限してしまうかもしれません。

音質を改善する方法

テクノロジー企業は、音声によるインタラクションを改善し、競合他社より抜きん出る方法を常に模索しています。最も重要な焦点領域は次のとおりです。

正確さ。音声認識システムはすでに少なくとも人間と同等の性能を備えており、中には人間の能力を超えるものもあります。ただし、特にエッジケースでは、精度にはまだ改善の余地があります。
予測機能。予測分析と組み合わせることで、音声およびスピーチベースのインタラクションはさらに効果的になります。機械は、一方的な入力に頼るのではなく、示唆的な質問をして、私たちが必要とするかもしれないものについて積極的な提案を行うことができます。
感情的な背景。デジタルアシスタントで感情的なコンテキストを読み取る機能を開発したり、応答で人間の感情的な内容を模倣したりすることも検討する価値があります。たとえば、デジタルアシスタントは、あなたの声のトーンからあなたが怒っているのか、恐れているのかを判断し、技術的にシミュレートされた一種の共感であなたに応答することができます。この次元では「不気味さ」の要素は高いかもしれませんが、より自然なやりとりにつながる可能性があります。

音声置換

では、音声は機械とやりとりする手段としてはもう終わりなのでしょうか? それはまだわかりませんが、完全に開発されるまでにはまだ何年もかかるかもしれませんが、いつか音声と手動入力の両方に取って代わる可能性のある候補がいくつかあります。

ジェスチャー。最も興味深い可能性のある開発の 1 つは、ジェスチャーの形で機械と通信することです。デバイスに何をすべきかを明示的に指示するのではなく、パターンに沿って目を動かして特定の機能を起動したり、空中で指を動かしてホログラフィックインターフェイスを操作したりすることができます。ジェスチャーは音声よりも静かで抽象的であるため、多くの点でよりシンプルでアクセスしやすいものになります。しかし、学習曲線はまだ急峻であり、この技術はまだ主流になる準備ができていません。
アイデア。いくつかの企業が、脳とコンピューターの直接的な相互作用の可能性を調査しています。言い換えれば、腕や足の動きを制御するのと同じように、思考だけを使ってコンピューターを制御できるようになる日が来るかもしれません。多くの人にとって、これは恐ろしい考えです。なぜなら、接続的な相互作用が双方向に機能する可能性があることを示唆しているからです。しかし、この技術はまだ初期段階にあるため、問題が発生するかどうかを予測することは困難です。
その他の通信手段。機械と人間のコミュニケーションの将来がどうなるかを想像するのは難しいので、他のより抽象的なモデルの可能性を排除することはできません。何らかの技術革新者が、私たちがまだ考えも及ばないような、直接的なコミュニケーションの斬新な方法を考案したのかもしれません。

現在、音声ベースの制御と通信は、機械と情報を交換する方法において依然として主流となっています。この技術は非常に洗練されているため、ほとんどの人がその潜在能力を簡単に活用できます。プライバシーに関する懸念や予測機能の限界など、その使用にはいくつかの問題がありますが、さらなる開発によってこれらを軽減（または排除）できる可能性があります。

<<: 機械学習プロジェクトでオプティマイザーを選択する方法

>>: Raspberry Pi でボストンロボットドッグを DIY すれば、50 万ドル節約できます。オープンソースのチュートリアルで誰でも始められます。