音声認識データベースと音声合成データベースは、人工知能の重要な技術です。機械が人間のように聞き、話し、学び、理解し、考え、人間の生活や仕事の強力な助っ人や親密なパートナーになることは、人類の長年の夢でした。過去半世紀にわたるインテリジェント音声技術の進歩とディープニューラルネットワーク技術(DNN)の工学応用により、人類はこの夢に近づきつつあり、この夢はインテリジェント音声技術の発展を大きく推進しています。当初、人間が機械に人間のような声を出させることは可能だったが、18世紀後半にヨーロッパ人が作ったケンペレン発声機械のように、限られた数の単語と短い文章を話す機械しか作れなかった。 2 世紀以上が経過した今日の「チャットボット」は、非常に自然な声で人々とコミュニケーションできるだけでなく、ジョークを言ったり、かわいらしい行動をしたりすることもできます。 1950 年代に AT&T ベル研究所が開発した Audry は、10 個の英語の数字を認識できました。現在、音声認識技術の自然言語認識精度は95%を超えています。
マイクロソフトがリリースした「XiaoIce」と百度がリリースした「DuBi」は、再び一般の人々の間で人工知能と人間とコンピューターの相互作用への熱狂を引き起こした。 XiaoIceとDuMiの知能、リスニング、スピーキング能力の秘密をより深く理解するために、記者は北京海天瑞盛科技有限公司のCEO、唐迪飛氏にインタビューした。中国、さらにはアジア最大の人工知能データリソースサプライヤーとして、海天瑞生は、音声合成(TTS)、音声認識(ASR)、自然言語理解(NLP)、機械翻訳(MT)などの技術分野における基本データリソースの開発で17年の専門経験を積んできました。インテリジェント音声の基本データリソースに関しては、現在、70以上の国と地域をカバーする116の言語でデータリソースを作成する能力を備えています。 Xiaoice と Dumi の人間の命令を理解する能力は、以前の音声アシスタントよりもはるかに優れています。百度世界大会で、DuerOS は Robin Li のさまざまな課題を難なく処理しました。「工場長」がオンラインでカフェラテ 2 杯を注文するのを手伝っただけでなく、ペット同伴可能なレストランを予約したり、アニメ映画のチケットをオンラインでグループ購入したりもしました。では、XiaoIce と DuMi が人間の命令を正確に理解できる秘密は何でしょうか? 唐迪菲氏は、これは音声認識(ASR)技術と自然言語理解(NLP)技術の驚異的な革新と進歩によるものだと述べた。初期のDNNモデルから現在のLSTMモデルまで、機械学習(ML)からディープラーニング(DL)まで、それぞれの技術革新がユーザーにまったく新しい体験をもたらしてきた。それだけでなく、音声認識エンジンのトレーニングに使用される基本的な音声コーパスも重要な要素です。コーパスを設計する際には、専門の言語学者が、特定の言語の言語現象に基づいて、コーパスの分野分布、アプリケーションシナリオ分布、コーパスの適時性などの要素を総合的に考慮する必要があります。同時に、対応するNLP処理技術と注釈チームを使用して、データベースコーパスプールの規模と構造が科学的で合理的であること、音素のカバレッジとバランス、文の意味が完全であること、意味が一貫していること、スペルが正確であること、読みやすく理解しやすいことを保証します。最後に、話者分布、アクセント分布、テキスト分布、音素分布、シナリオ分布などの条件に応じて、DTW動的ルールアルゴリズムなどの対応するアルゴリズムを使用して話者のテキストを抽出し、特定の発音のテキストを形成します。 アクセント、年齢、学歴、居住地域の違いにより、異なる人々が同じ考えを表現したり、同じ質問をしたり、同じ文章を微妙な違いで言ったりすることがあります。たとえば、インテリジェントなカスタマー サービス アプリケーションでは、ロボットは顧客の発言を理解するだけでなく、顧客の感情を認識できなければなりません。たとえば、顧客の感情が不安なのか落ち着いているのかに基づいて、または顧客の感情の変化に基づいて、顧客が怒っているのか、徐々に落ち着いているのかを判断し、異なる処理の優先順位とフィードバック方法を採用することができます。これには、トレーニング コーパスに感情的な要素を導入することが含まれます。しかし、現時点では、Xiaoice と DuMi はこれを完全に達成できません。 唐迪菲氏によると、「XiaoIce」が自然で甘く流暢な声で話せるようにするために、大規模な音声合成(TTS)データベースの設計と開発が、彼女のユーザー体験を根本的に決定づけるという。データベースを設計する際には、まず適切な年齢と声質を持つ話し手を選ぶ必要があります。話し手の声は若々しく、明るく、スマートで、活力に満ちている必要があります。第二に、データベースの設計では、言語と音素の包括的なカバー範囲を十分に考慮する必要があり、コーパスは主に大規模なチャット対話コーパスから取得されます。小冰が感情的な女の子であることを強調するために、彼女は真面目な話をするだけでなく、怒ったり、かわいく振る舞ったりもします。そのため、コーパス設計に多くの口語文やインターネット用語、さらにはオンライン小説の文章を追加する必要があります。同時に、よく使われる英語の語彙、中英混合語彙、数字列、地名などの特別な言語教材も必要です。人間の自然言語では、同じ文でも文脈によってイントネーションやリズムが異なります。したがって、コーパスの設計ではこれらの要素を考慮する必要があります。その結果、コーパスのサイズは数万、あるいは数十万の文になることがよくあります。ある程度、音声合成コーパスの設計の失敗は、音声合成技術の進歩を大きく損なうことになります。 XiaoIce や DuMi のようなチャットボットから真の機械の仲間に至るまで、人間が進むべき道はまだまだ長く、克服すべき困難も数多くあります。さまざまな指示をより正確に理解して対応し、人の感情の変化や感情的なニーズを「理解」し、感情的なサポートや慰めなど、より人間らしいサービスを提供できるよう「考える」ことができなければなりません。言語表現の面でも、実際の人間の感情や気持ちの表現に近づき、より自然で流暢なものになるはずです。もちろん、この困難には多くの理由があります。Tang Difei 氏は、その理由の 1 つとして、基本的なデータ リソースの不足とコストの高さを挙げました。前述のように、チャットボットが人間の言語や感情を可能な限り理解できるようにする、あるいは実際に「理解」できるようにするには、基本的なデータ リソースの設計者と開発者に高い要件が課せられます。 |
<<: Google、ファイルサイズを35%削減できる新しいJPEGアルゴリズムをオープンソース化
>>: ディープラーニングタスクに最適な GPU を選択するにはどうすればよいでしょうか?
サプライチェーンを理解する簡単に言えば、サプライ チェーンには、製品またはサービスをエンド ユーザー...
11月19日、アリババ、百度、ファーウェイ、テンセント、網易など国内有名企業が企画・主催する201...
自動運転は現在社会的なホットな話題となっており、人工知能と自動化技術の革新的な開発にとって重要な方向...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
編纂者 | Yan Zheng制作:51CTO テクノロジースタック(WeChat ID:blog)...
日常的なタスクの自動化は、現在多くの業界で関心を集めているコンセプトです。最も革命的なのは自動運転車...
RNN とは何か、どこで使用されているか、どのように前方および後方に伝播するか、そして PyTorc...
ディープラーニングが再び認知されて以来、多くの機械学習フレームワークが登場し、研究者や業界の専門家の...
年末には給与に関する議論が再び盛り上がる。昨日、馬化騰氏は抽選で従業員に30万元相当のテンセント株1...
スマートグリッドはエネルギー配給と通信ネットワークに革命をもたらす以下では、スマートグリッドの主な特...
進化し続けるテクノロジーの世界において、魅力的であると同時に不安も抱かせる概念の出現が、スーパー人工...
このレビュー記事では、著者はマルチインテリジェンス強化学習の理論的基礎を詳細に紹介し、さまざまなマル...