Google が発表した新しい研究論文では、音声検索や YouTube 動画へのテキスト説明やタグの追加など、音声認識プログラムの背後にあるデータ サイエンスが詳しく説明されています。ほとんどの人はアルゴリズムを習得できませんが、その考え方は完全に理解できます。この論文の出発点は、人々がビッグデータに魅了される理由と、仕事に適したデータセットを選択することの重要性です。 Google は、データが多ければ多いほど良いと常に信じてきました。製品開発ディレクターの Peter Norvig 氏の言葉を借りれば、「データが多ければ多いほど、アルゴリズムが優れているよりも良い」のです。ノルヴィグの評価にはアルゴリズムに関する細かい指摘がまだ残っているものの、この論文を受け入れた人が増え、ビッグデータの分野で白熱した議論が巻き起こったことは明らかだ。モデルが学習するデータが増えるほど、たとえ最初は最も正確でなかったとしても、モデルの精度は高まります。 では、これ以上前置きせずに、音声認識システムの改善において、より多くのデータが果たす役割について見ていきましょう。研究者らは、データセットと大規模言語モデル(Google の開発に関わった n グラム モデルの Wikipedia による説明)により、最初の単語を受け取った後に次の単語を推測する際のエラー率を削減できることを発見しました。たとえば、Google の上級研究員は 10 月 31 日の研究に関するブログ投稿で次のような例を挙げています。「優れたモデルであれば、最初の 2 つの単語が「ニューヨーク」の場合、次の単語を推測する際に「グラノーラ」ではなく「ピザ」を選択する可能性が高くなります。」音声検索を行う際、彼のチームは、モデルのサイズが 2 桁増加するごとに、関係語のエラー率が 10% 減少することを発見しました。 ここで重要なのは、データセットの種類に関係なく、どのタイプのデータセットがモデルにとって有益であるかということです。検索テストでは、Google は google.com への匿名クエリのランダム サンプルを使用して、スペル修正に表示されなかった 230 語を検索しました。人間の話し方や書き方は通常の入力による検索方法とは異なるため、YouTube のモデルのデータはニュース レポートの録音や大規模な Web サイトからのスクレイピングから取得されます。 「純粋に言語モデル化の観点から言えば、トピックや話し方の多様性により、大規模なウェブクロールは言語モデル化に適した選択肢となる」と彼らは書いている。 この研究は必ずしも画期的なものではありませんが、ビッグデータとデータサイエンスが今日これほど注目を集めている理由を説明しています。消費者がよりスマートなアプリケーションとよりシームレスなユーザー エクスペリエンスを要求するにつれて、あらゆるデータの選択と各データに対応する分析ソリューションが間違いなく最優先事項になります。 |
>>: 基本的なアルゴリズムについての簡単な説明: AVL ツリーとスプレイ ツリー (パート 3)
[[211637]]リカレント ニューラル ネットワーク (RNN) は、レイヤー内に重み付けされた...
[[204301]]概要: この論文では、心臓磁気共鳴画像 (MRI) データセットからの画像内の右...
[[376715]] > Unsplash の Alina Grubnyak による画像ニュー...
論文タイトル: GauHuman: 単眼の人間動画からの関節型ガウス分布スプラッティング論文ダウンロ...
中国は世界最大の人工知能研究者の供給国となった。米国の人工知能分野のトップ研究者のほぼ3分の1は中国...
[[327813]]新たな研究によると、人工知能(AI)は、自撮り写真だけに基づいて人の性格を識別す...
近年、電子商取引経済の急速な発展と人々の生活水準の継続的な向上により、物流の需要が急増していますが、...
【51CTO.comオリジナル記事】今年、我が国では間違いなく新しいインフラがホットな話題です。 2...
[[270834]]近年、人工知能はテクノロジー界で注目されている分野です。中国では、Megvii...
[51CTO.com 速訳] 人工知能は今や脂身の多い肉となり、誰もがそれを利用し、人工知能の真髄を...
AIGC は、現代の偉大な技術的進歩の 1 つとして広く認められています。 OpenAI の Cha...
[[389157]]この記事では、アリババ AI ミドルプラットフォームの技術品質システム、つまり検...
翻訳者 |陳俊レビュー | Chonglouデジタル時代に入って以来、マルウェアはコンピュータ アプ...
Amazon Polly は、テキストをリアルな音声に変換するサービスです。これにより、音声を発する...