IBMは、人間の音声認識の実際の単語エラー率は5.1%であると主張している。

IBMは、人間の音声認識の実際の単語エラー率は5.1%であると主張している。

昨年 10 月、マイクロソフトの AI および研究部門の研究者およびエンジニアのチームは、自社の音声認識システムがプロの速記者の単語誤り率 (WER) と同等かそれよりも低い 5.9% を達成したと報告しました。しかし、IBMの公式ブログは本日、​​人間のレベルは実際には5.1%であるはずだと主張する記事を公開した。同時に、記事ではIBMシステムの単語エラー率がマイクロソフトが報告したこれまでの最高レベルを超え、5.5%に達したとも述べられている。 IBMは、これはまったく新しい画期的な成果であると主張していますが、関連する研究論文はまだ公開されていないようです(見つけることができませんでした)。Machine Heartは引き続き注目し、この成果の技術的な詳細をできるだけ早く読者と共有することを楽しみにしています。

以下のコンテンツは IBM ブログからまとめたものです。

このブログ投稿の日付とタイトル

会話では、人は20語聞くごとに1~2語聞き逃してしまいます。 5 分間の会話では、80 語を聞き逃す可能性があります。しかし、これは会話を妨げるものではありませんでした。この状況がコンピューターに置き換えられたらどうなるか想像してみてください。

昨年、IBM は会話型音声認識において大きな進歩を遂げ、音声認識における単語エラー率を 6.9% にまで削減したことを発表しました。それ以来、単語エラー率は低下し続け、現在では 5.5% に達しています。

単語エラー率は、車の購入など日常的な話題について人々の会話を録音するという難しい音声認識タスクから測定されます。この録音されたコーパスは SWITCHBOARD と呼ばれ、20 年以上にわたって音声認識システムの標準となっています。

IBMはディープラーニング応用技術の拡大に注力し、最終的に単語誤り率5.5%という画期的な成果を達成しました。 LSTM モデルと WaveNet 言語モデルを 3 つの強力な音響モデルと組み合わせました。使用される 3 つの音響モデルのうち、最初の 2 つは 6 層の双方向 LSTM であり、そのうちの 1 つはマルチ機能入力を持ち、もう 1 つは話者敵対的マルチタスク学習によってトレーニングされます。 3 番目のモデルは、正のサンプルと負のサンプルの両方から学習できるという点でユニークです。そのため、IBM のシステムは、特に類似した音声パターンが繰り返される場合に、ますます賢くなります。

人間の会話と同等の単語誤り率を達成することは、長い間業界の究極の目標でした。中には、人間レベルの単語誤り率 5.9% を達成したと主張するものもあります。本日の成果の一環として、実際の人間の単語エラー率は 5.1% であると再判定されました。これは、以前の成果よりも低い値です。

私たちのパートナーである Appen は音声および検索テクノロジー サービスを提供し、最終的に人間の実際の単語エラー率を決定するのに役立ちました。 5.5% の単語誤り率を達成したことは大きな進歩でしたが、実際の人間の単語誤り率を測定すると、まだそこに到達していないことがわかります。

私たちの研究活動の一環として、他の業界の専門家と協力して音声データを入手しました。モントリオール大学MILA研究所の医学博士ヨシュア・ベンジオ氏は、人間に似た人間になるためには、まだまだ努力が必要だと考えている。

「近年の目覚ましい進歩にもかかわらず、音声認識や物体認識などの AI タスクで人間レベルのパフォーマンスを達成することは、依然として最も困難な科学的課題の 1 つです。実際には、標準ベンチマークでは実際のデータの多様性と複雑性を必ずしも捉えることはできません。たとえば、データセットによってタスクのさまざまな側面に対する感度が異なり、音声認識の場合は熟練した文字起こし担当者を使用するなど、人間のパフォーマンスを評価する方法によって結果が大きく左右されます」とベンジオは述べています。「IBM は、ニューラル ネットワークとディープラーニングを音響モデルと言語モデルに適用することで、音声認識で大きな進歩を遂げてきました。」

また、業界全体で人間のパフォーマンスをテストする標準的な方法を見つけることは、予想以上に複雑であることもわかりました。 SWITCHBOARD に加えて、この業界の別のコーパスである CallHome は、事前に固定されたトピックのない家族間のより口語的な会話に基づいて作成された、テスト用の別の言語データセットを提供します。 CallHome データの会話は、Switchboard の会話よりも機械で書き起こすのが難しく、そのため、突破口を開くのがより困難になります。 (このコーパスでは、単語エラー率が 10.3% を達成しました。これは、業界記録です。ただし、Appen の助けにより、同じ状況での人間の精度は 6.8% です)。

さらに、SWITCHBOARD テスト中に、テスト スピーカー データと同じ人間の声の一部が、音響モデルと言語モデルのトレーニングに使用されるトレーニング データセットにも含められました。 CallHome にはそのような重複がないため、その音声認識モデルはテスト話者のデータにさらされることはありません。このため、繰り返しがなくなり、人間と機械のパフォーマンスの差が大きくなってしまいます。私たちが人間と同等の地位を目指して努力を続ける中で、こうした再現を活用できるディープラーニング技術の進歩は、最終的にこれらの困難な問題を克服する上で重要な役割を果たすことになるでしょう。

コロンビア大学のコンピューターサイエンス教授兼学部長であるジュリア・ヒルシュバーグ氏は、音声認識の複雑な課題について次のようにコメントしている。

人間の音声、特に自然な会話は非常に複雑であるため、人間のような音声認識機能を実現することは継続的な課題です。他人の話し言葉を理解する能力は人によって異なるため、人間のパフォーマンスを定義することも困難です。自動認識と人間のパフォーマンスを比較する場合、認識装置のパフォーマンスと、評価対象の同じ音声に対する人間のパフォーマンスという 2 つの重要な点を考慮する必要があります。したがって、SWIRCHBOARD と CallHome データに関する IBM の最近の成果は非常に注目に値します。また、広く引用されているこれら 2 つのコーパスを理解する人間の能力をより深く理解するための IBM の継続的な取り組みにも感銘を受けています。この科学的成果は、現在の ASR 技術を考慮すると注目に値するものであり、機械が人間の音声理解に匹敵するにはまだ道のりが残っていることを示しています。

本日の成果は、音声テクノロジーにおける当社にとって新たなマイルストーンとなります。たとえば、昨年 12 月には、Watson 音声テキスト変換サービスに話者ダイアライゼーションを追加しました。これは、会話中の個人を区別する機能の向上です。こうした音声の進歩は数十年にわたる研究に基づいており、人間レベルの音声認識を実現するのは複雑な作業です。私たちは、人間が聞き、話し、考える複雑さにいつの日か到達できるテクノロジーを創り出すために、これからも努力を続けていきます。私たちは進歩に勇気づけられていますが、私たちの仕事は将来の研究、そしてさらに重要なことに、可能な限り最高の精度基準を達成することにかかっています。

元記事: https://www.ibm.com/blogs/watson/2017/03/reaching-new-records-in-speech-recognition/

[この記事は、51CTOコラムニストのMachine Heart、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  FacebookがFaissオープンソースリソースライブラリをリリース。精度と効率をトレードすることが機械学習の発展方向となるのか?

>>:  Google、AIの地位強化のためデータサイエンスコミュニティKaggleの買収を発表

ブログ    

推薦する

...

...

クンペンが離陸、ソフトコムが道路を建設、ソフトコム・ウィズダムがファーウェイと手を組み、済南を科学技術革新の高原に築く

10月21日、「泉城の知能、万里の昇り」をテーマにした2020年中国人工知能産業サミットと昇りコンピ...

...

...

2021年になっても、データにラベルを付ける方法がまだわかりませんか?なぜ人工知能にはデータ注釈が必要なのでしょうか?

「データを持っている者は人工知能を持っている。」現在、人工知能は私たちの生活の中で当たり前のものに...

2022年の銀行業界における人工知能の応用

人工知能はあらゆる分野に革命をもたらしており、銀行業も例外ではありません。 調査によると、世界の人工...

インテリジェントな排便・排尿ケアロボットが4400万人の障害を持つ高齢者の介護問題を解決

データによれば、わが国には60歳以上の高齢者が2億6,400万人以上おり、そのうち1億8,000万人...

ディープラーニングコンパイラについて知っておくべきこと

[[409589]]ディープラーニングはここ 10 年ほどで急速に発展し、業界では多くのディープラー...

...

ディープラーニングは廃れつつあるのでしょうか?ベンジオ氏と他の専門家がNeurlPS2019でアドバイスを行う

状況はますます明らかになりつつあります。 AIが直面している課題は、計算能力を高めたり、より多くのデ...

機械学習の実践者が直面する8つの大きな課題

機械学習 (ML) や人工知能 (AI) と聞くと、多くの人はロボットやターミネーターを想像します。...

Aurora の 1 億ドルの買収の背後にあるもの: RISC-V の創始者が「中国製チップ」を開発するという野望

2月27日、米国の著名な自動運転企業であるAuroraは、ライダーチップ企業OURSを1億ドルで買収...

ガートナーは、中国企業が平均5つ以上のAIユースケースを展開しているというレポートを発表した。

最近、ガートナーは中国企業が人工知能プロジェクトをプロトタイプから生産へと移行していることを示す最新...

...