2日間で星の数が1,000を突破:OpenAIのWhisperの蒸留後、音声認識が数倍高速化

2日間で星の数が1,000を突破:OpenAIのWhisperの蒸留後、音声認識が数倍高速化

少し前に、「テイラー・スウィフトが中国語を披露」する動画がさまざまなソーシャルメディアプラットフォームで人気となり、その後「郭徳剛が英語を披露」といった類似の動画も続いた。これらのビデオの多くは、「HeyGen」と呼ばれる AI アプリケーションから作成されています。

しかし、HeyGen の現在の人気から判断すると、同様のビデオを作成するには長い時間がかかる可能性があります。幸いなことに、これが唯一の方法ではありません。テクノロジーに精通している人は、音声テキスト変換モデル Whisper、テキスト翻訳 GPT、サウンドの複製 + オーディオ生成 so-vits-svc、オーディオに一致する唇の形のビデオを生成する GeneFace++ など、他の代替手段を探すこともできます。

その中でも、音声テキスト変換のWhisperモデルは非常に有用です。 Whisper は、OpenAI によって開発され、オープンソース化された自動音声認識 (ASR) モデルです。インターネットから 680,000 時間分の多言語 (98 言語) およびマルチタスクの教師ありデータを収集して、Whisper をトレーニングしました。 OpenAI は、このような大規模で多様なデータセットを使用することで、アクセント、背景ノイズ、技術用語を認識するモデルの能力が向上すると考えています。 Whisper は音声認識に使用されるだけでなく、複数の言語で文字起こししたり、それらの言語を英語に翻訳したりすることもできます。現在、Whisper には多くのバリエーションがあり、多くの AI アプリケーションを構築するために不可欠なコンポーネントとなっています。

最近、HuggingFace のチームが新しいバリエーションである Distil-Whisper を提案しました。このバリアントは、Whisper モデルの精製バージョンです。小型で高速、高精度であるため、レイテンシが低い環境やリソースが限られている環境に最適です。ただし、複数の言語を処理できる元の Whisper モデルとは異なり、Distil-Whisper は英語のみを処理できます。

論文アドレス: https://arxiv.org/pdf/2311.00430.pdf

具体的には、Distil-Whisper には、756M パラメータ (distil-large-v2) と 394M パラメータ (distil-medium.en) の 2 つのバージョンがあります。

OpenAIのWhisper-large-v2と比較すると、distil-large-v2の756Mバージョンはパラメータ数が半分以下に抑えられているにもかかわらず、6倍の高速化を実現し、精度の面でもWhisper-large-v2に非常に近いものとなっています。短い音声の単語誤り率(WER)の差は1%以内で、長い音声ではWhisper-large-v2よりもさらに優れています。これは、慎重なデータ選択とフィルタリングにより、Whisper の堅牢性が維持され、幻覚が軽減されるためです。

Whisper と Distil-Whisper の Web バージョンの速度を直接比較します。画像出典: https://twitter.com/xenovacom/status/1720460890560975103

ということで、Distil-Whisper はリリースされてからまだ 2 ~ 3 日しか経っていないのに、すでに星が 1,000 個を超えています。


  • プロジェクトアドレス: https://github.com/huggingface/distil-whisper#1-usage
  • モデルアドレス: https://huggingface.co/models?other=arxiv:2311.00430

さらに、テスト結果では、150 分のオーディオを処理する場合、Distil-Whisper は Faster-Whisper よりも 2.5 倍高速であることが示されました。

テストリンク: https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper

それで、どのようにしてこのような良い結果が達成されたのでしょうか?著者らは論文の中で、疑似ラベリング技術を使用して大規模なオープンソースデータセットを構築し、このデータセットを使用して Whisper モデルを Distil-Whisper に抽出したと述べています。シンプルな WER ヒューリスティックを使用して、トレーニング用に最高品質の疑似ラベルのみを選択します。

下の図 1 は、Distil-Whisper のアーキテクチャを示しています。研究者たちは、教師モデルからエンコーダー全体をコピーして生徒モデルを初期化し、トレーニング中にそれを凍結しました。彼らは、OpenAI の Whisper-medium.en および Whisper-large-v2 モデルから、最初と最後のデコーダー レイヤーをコピーして、それぞれ distil-medium.en と distil-large-v2 と名付けた 2 層デコーダー チェックポイントを抽出しました。

蒸留モデルの寸法詳細は表3に示されています。

データに関しては、モデルは 9 つの異なるオープンソース データセットで 22,000 時間トレーニングされました (表 2 を参照)。疑似ラベルは Whisper によって生成されます。重要なのは、WER フィルターを使用して、WER スコアが 10% を超えるラベルのみが保持されたことです。著者は、これがパフォーマンスを維持するための鍵だと言っています。

以下の表 5 に、Distil-Whisper の主なパフォーマンス結果を示します。

著者らは、エンコーダをフリーズする操作により、Distil-Whisper はノイズに対して非常に堅牢になると述べています。下の図に示すように、Distil-Whisper は Whisper と同様の堅牢性曲線に従い、ノイズの多い条件下では Wav2vec2 などの他のモデルよりも優れたパフォーマンスを発揮します。

さらに、比較的長いオーディオ ファイルを処理する場合、Distil-Whisper は Whisper と比較して幻覚を効果的に削減しますが、これは主に WER フィルタリングによるものだと著者らは考えています。

同じエンコーダを共有することで、Distil-Whisper を Whisper と組み合わせて投機的デコードを行うことができます。これにより、Whisper と同じ出力を生成しながら、パラメータがわずか 8% 増加するだけで速度が 2 倍になります。

詳細については元の記事をご覧ください。

<<:  ビッグモデル実装の最後の一歩: ビッグモデル評価の 111 ページに及ぶ包括的なレビュー

>>:  AIは自分が生成したものを理解できるのか?GPT-4とMidjourneyを試した後、誰かがこの問題を解決した

ブログ    
ブログ    

推薦する

ロボットは感染症の蔓延を抑制するためにどのように役立つのでしょうか?

COVID-19の時代において、ロボット工学とテクノロジーは協力して伝染性ウイルスの拡散を防いでい...

AI ソフトウェアは教育分野にどのように役立つのでしょうか?

[[280714]]人工知能は世界に大きな影響を与えます。 2025年までに、AIソフトウェアの総...

...

この方程式はバイナリツリーの森ですか?データから直接未知の支配方程式と物理的メカニズムを発見する

研究者たちは、機械学習の手法を使用して、高次元の非線形データから直接最も価値があり重要な内部法則を自...

人工知能と機械学習における13の共通概念

[[422893]] 01 人工知能アラン・チューリングは人工知能を次のように定義しました。カーテン...

自動運転の簡単な分析 - 衝突防止警報システム

朝起きると、自分が遅く起きたことに気づきます。時間通りに会社に着いて出勤記録を残さないようにし、勤怠...

製造バリューチェーンにおいて RPA に真のチャンスはあるのでしょうか?

[[421304]]製造業における自動化の推進力は非常に単純です。自動化は人間の作業をシミュレート...

GPT-4Vに挑戦する浙江大学の卒業生が、マルチモーダル大規模モデルのオープンソース版をリリースし、GitHubで6,000以上のスターを獲得しました。

GPT-4 の視覚機能がテスト用に完全にリリースされる前に、オープンソースのライバルが華々しくデビ...

ハーバード大学の研究者がAIを活用して世界中の密猟を阻止

ハーバード大学ジョン・A・ポールソン工学応用科学大学院のリリー・シューさんは、幼いころから環境と保護...

...

データ駆動型パーソナライゼーションの時代: AI と ML がデータの読み取りと理解の方法をどのように変えているのか

今日のビジネスはデータとデータに基づく理解によって支配されています。データをどのように理解し、それを...

...

...

2023 年のフィンテック業界における AI トレンド トップ 10

2023 年の FinTech 業界では、変革的な AI トレンドが見られます。機械学習、ロボティ...

私たちは人工知能をどれほど深く誤解しているのか

[[320546]]人工知能技術には良い影響と悪い影響の両方があり、人類に利益をもたらす一方で、さま...