2日間で星の数が1,000を突破:OpenAIのWhisperの蒸留後、音声認識が数倍高速化

2日間で星の数が1,000を突破:OpenAIのWhisperの蒸留後、音声認識が数倍高速化

少し前に、「テイラー・スウィフトが中国語を披露」する動画がさまざまなソーシャルメディアプラットフォームで人気となり、その後「郭徳剛が英語を披露」といった類似の動画も続いた。これらのビデオの多くは、「HeyGen」と呼ばれる AI アプリケーションから作成されています。

しかし、HeyGen の現在の人気から判断すると、同様のビデオを作成するには長い時間がかかる可能性があります。幸いなことに、これが唯一の方法ではありません。テクノロジーに精通している人は、音声テキスト変換モデル Whisper、テキスト翻訳 GPT、サウンドの複製 + オーディオ生成 so-vits-svc、オーディオに一致する唇の形のビデオを生成する GeneFace++ など、他の代替手段を探すこともできます。

その中でも、音声テキスト変換のWhisperモデルは非常に有用です。 Whisper は、OpenAI によって開発され、オープンソース化された自動音声認識 (ASR) モデルです。インターネットから 680,000 時間分の多言語 (98 言語) およびマルチタスクの教師ありデータを収集して、Whisper をトレーニングしました。 OpenAI は、このような大規模で多様なデータセットを使用することで、アクセント、背景ノイズ、技術用語を認識するモデルの能力が向上すると考えています。 Whisper は音声認識に使用されるだけでなく、複数の言語で文字起こししたり、それらの言語を英語に翻訳したりすることもできます。現在、Whisper には多くのバリエーションがあり、多くの AI アプリケーションを構築するために不可欠なコンポーネントとなっています。

最近、HuggingFace のチームが新しいバリエーションである Distil-Whisper を提案しました。このバリアントは、Whisper モデルの精製バージョンです。小型で高速、高精度であるため、レイテンシが低い環境やリソースが限られている環境に最適です。ただし、複数の言語を処理できる元の Whisper モデルとは異なり、Distil-Whisper は英語のみを処理できます。

論文アドレス: https://arxiv.org/pdf/2311.00430.pdf

具体的には、Distil-Whisper には、756M パラメータ (distil-large-v2) と 394M パラメータ (distil-medium.en) の 2 つのバージョンがあります。

OpenAIのWhisper-large-v2と比較すると、distil-large-v2の756Mバージョンはパラメータ数が半分以下に抑えられているにもかかわらず、6倍の高速化を実現し、精度の面でもWhisper-large-v2に非常に近いものとなっています。短い音声の単語誤り率(WER)の差は1%以内で、長い音声ではWhisper-large-v2よりもさらに優れています。これは、慎重なデータ選択とフィルタリングにより、Whisper の堅牢性が維持され、幻覚が軽減されるためです。

Whisper と Distil-Whisper の Web バージョンの速度を直接比較します。画像出典: https://twitter.com/xenovacom/status/1720460890560975103

ということで、Distil-Whisper はリリースされてからまだ 2 ~ 3 日しか経っていないのに、すでに星が 1,000 個を超えています。


  • プロジェクトアドレス: https://github.com/huggingface/distil-whisper#1-usage
  • モデルアドレス: https://huggingface.co/models?other=arxiv:2311.00430

さらに、テスト結果では、150 分のオーディオを処理する場合、Distil-Whisper は Faster-Whisper よりも 2.5 倍高速であることが示されました。

テストリンク: https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper

それで、どのようにしてこのような良い結果が達成されたのでしょうか?著者らは論文の中で、疑似ラベリング技術を使用して大規模なオープンソースデータセットを構築し、このデータセットを使用して Whisper モデルを Distil-Whisper に抽出したと述べています。シンプルな WER ヒューリスティックを使用して、トレーニング用に最高品質の疑似ラベルのみを選択します。

下の図 1 は、Distil-Whisper のアーキテクチャを示しています。研究者たちは、教師モデルからエンコーダー全体をコピーして生徒モデルを初期化し、トレーニング中にそれを凍結しました。彼らは、OpenAI の Whisper-medium.en および Whisper-large-v2 モデルから、最初と最後のデコーダー レイヤーをコピーして、それぞれ distil-medium.en と distil-large-v2 と名付けた 2 層デコーダー チェックポイントを抽出しました。

蒸留モデルの寸法詳細は表3に示されています。

データに関しては、モデルは 9 つの異なるオープンソース データセットで 22,000 時間トレーニングされました (表 2 を参照)。疑似ラベルは Whisper によって生成されます。重要なのは、WER フィルターを使用して、WER スコアが 10% を超えるラベルのみが保持されたことです。著者は、これがパフォーマンスを維持するための鍵だと言っています。

以下の表 5 に、Distil-Whisper の主なパフォーマンス結果を示します。

著者らは、エンコーダをフリーズする操作により、Distil-Whisper はノイズに対して非常に堅牢になると述べています。下の図に示すように、Distil-Whisper は Whisper と同様の堅牢性曲線に従い、ノイズの多い条件下では Wav2vec2 などの他のモデルよりも優れたパフォーマンスを発揮します。

さらに、比較的長いオーディオ ファイルを処理する場合、Distil-Whisper は Whisper と比較して幻覚を効果的に削減しますが、これは主に WER フィルタリングによるものだと著者らは考えています。

同じエンコーダを共有することで、Distil-Whisper を Whisper と組み合わせて投機的デコードを行うことができます。これにより、Whisper と同じ出力を生成しながら、パラメータがわずか 8% 増加するだけで速度が 2 倍になります。

詳細については元の記事をご覧ください。

<<:  ビッグモデル実装の最後の一歩: ビッグモデル評価の 111 ページに及ぶ包括的なレビュー

>>:  AIは自分が生成したものを理解できるのか?GPT-4とMidjourneyを試した後、誰かがこの問題を解決した

ブログ    

推薦する

CNN、RNN、GAN とは何ですか?ついに誰かが明らかにした

[[334740]] 01 完全に接続されたネットワーク完全に接続された高密度の線形ネットワークは、...

「顔を見る」時代において、顔認識は「マーケティング」の共犯者にはなり得ない

315ガラはカメラの顔認識の悪用の問題を暴露し、懸念を引き起こした。これはまた、問題を浮き彫りにする...

オンライン学習の次の波: 現代の学習システムにおける人工知能

[[375015]]世界的な流行により、ほぼすべての大学が授業をオンライン学習プラットフォームに移行...

...

コンピュータビジョンによる3D再構成 - 自動運転に焦点を当てる

最近、私は何かに没頭しています。没頭するというのは、諦めるということではなく、むしろ醸成していくプロ...

Web攻撃検出のための機械学習の深層実践

1. 概要1. 従来のWAFの問題点従来の WAF は、ルールとブラックリストおよびホワイトリストに...

...

8日間の国慶節と中秋節の休日、ドローンが楽しい時間をお過ごしください

国慶節と中秋節が重なり、長い休暇を利用して旅行する気分が盛り上がっています。関連データによると、今年...

中国のAI臨床診断がネイチャー誌に初掲載:71人の専門家が人間の医師を上回る精度の報告書を寄稿

[[257228]] 【新知能紹介】中国内外の科学者71人が共同で、検査結果を検知し、医師と同じくら...

疫病流行中に物流の円滑化に全力を尽くし、無人配送市場が活況を呈している

最近、国務院は貨物物流の円滑な流れを確保するために関連業務を展開するよう通知し、各地域と関連部門に主...

ヒントン、ルカン、ベンジオは、ディープラーニングの過去、現在、未来に関する1万語の記事を共同で発表した。

2018年、ACM(米国計算機協会)は、コンピュータディープラーニング分野への貢献を称え、ヨシュア...

人工知能はリモートセンシングデータの大きな可能性を解き放ち、国勢調査の手作業が置き換えられるかもしれない

畳み込みニューラルネットワーク(CNN)と衛星画像データを使用して地域の所得レベルを予測する手法がま...

...

Java から MySQL に接続するためのベストプラクティスを解読: 自分に合った方法を選択する

MySQL への接続は、Java 開発において非常に一般的なタスクの 1 つです。次のセクションでは...