2日間で星の数が1,000を突破：OpenAIのWhisperの蒸留後、音声認識が数倍高速化

少し前に、「テイラー・スウィフトが中国語を披露」する動画がさまざまなソーシャルメディアプラットフォームで人気となり、その後「郭徳剛が英語を披露」といった類似の動画も続いた。これらのビデオの多くは、「HeyGen」と呼ばれる AI アプリケーションから作成されています。

しかし、HeyGen の現在の人気から判断すると、同様のビデオを作成するには長い時間がかかる可能性があります。幸いなことに、これが唯一の方法ではありません。テクノロジーに精通している人は、音声テキスト変換モデル Whisper、テキスト翻訳 GPT、サウンドの複製 + オーディオ生成 so-vits-svc、オーディオに一致する唇の形のビデオを生成する GeneFace++ など、他の代替手段を探すこともできます。

その中でも、音声テキスト変換のWhisperモデルは非常に有用です。 Whisper は、OpenAI によって開発され、オープンソース化された自動音声認識 (ASR) モデルです。インターネットから 680,000 時間分の多言語 (98 言語) およびマルチタスクの教師ありデータを収集して、Whisper をトレーニングしました。 OpenAI は、このような大規模で多様なデータセットを使用することで、アクセント、背景ノイズ、技術用語を認識するモデルの能力が向上すると考えています。 Whisper は音声認識に使用されるだけでなく、複数の言語で文字起こししたり、それらの言語を英語に翻訳したりすることもできます。現在、Whisper には多くのバリエーションがあり、多くの AI アプリケーションを構築するために不可欠なコンポーネントとなっています。

最近、HuggingFace のチームが新しいバリエーションである Distil-Whisper を提案しました。このバリアントは、Whisper モデルの精製バージョンです。小型で高速、高精度であるため、レイテンシが低い環境やリソースが限られている環境に最適です。ただし、複数の言語を処理できる元の Whisper モデルとは異なり、Distil-Whisper は英語のみを処理できます。

論文アドレス: https://arxiv.org/pdf/2311.00430.pdf

具体的には、Distil-Whisper には、756M パラメータ (distil-large-v2) と 394M パラメータ (distil-medium.en) の 2 つのバージョンがあります。

OpenAIのWhisper-large-v2と比較すると、distil-large-v2の756Mバージョンはパラメータ数が半分以下に抑えられているにもかかわらず、6倍の高速化を実現し、精度の面でもWhisper-large-v2に非常に近いものとなっています。短い音声の単語誤り率（WER）の差は1％以内で、長い音声ではWhisper-large-v2よりもさらに優れています。これは、慎重なデータ選択とフィルタリングにより、Whisper の堅牢性が維持され、幻覚が軽減されるためです。

Whisper と Distil-Whisper の Web バージョンの速度を直接比較します。画像出典: https://twitter.com/xenovacom/status/1720460890560975103

ということで、Distil-Whisper はリリースされてからまだ 2 ～ 3 日しか経っていないのに、すでに星が 1,000 個を超えています。

プロジェクトアドレス: https://github.com/huggingface/distil-whisper#1-usage
モデルアドレス: https://huggingface.co/models?other=arxiv:2311.00430

さらに、テスト結果では、150 分のオーディオを処理する場合、Distil-Whisper は Faster-Whisper よりも 2.5 倍高速であることが示されました。

テストリンク: https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper

それで、どのようにしてこのような良い結果が達成されたのでしょうか?著者らは論文の中で、疑似ラベリング技術を使用して大規模なオープンソースデータセットを構築し、このデータセットを使用して Whisper モデルを Distil-Whisper に抽出したと述べています。シンプルな WER ヒューリスティックを使用して、トレーニング用に最高品質の疑似ラベルのみを選択します。

下の図 1 は、Distil-Whisper のアーキテクチャを示しています。研究者たちは、教師モデルからエンコーダー全体をコピーして生徒モデルを初期化し、トレーニング中にそれを凍結しました。彼らは、OpenAI の Whisper-medium.en および Whisper-large-v2 モデルから、最初と最後のデコーダーレイヤーをコピーして、それぞれ distil-medium.en と distil-large-v2 と名付けた 2 層デコーダーチェックポイントを抽出しました。

蒸留モデルの寸法詳細は表3に示されています。

データに関しては、モデルは 9 つの異なるオープンソースデータセットで 22,000 時間トレーニングされました (表 2 を参照)。疑似ラベルは Whisper によって生成されます。重要なのは、WER フィルターを使用して、WER スコアが 10% を超えるラベルのみが保持されたことです。著者は、これがパフォーマンスを維持するための鍵だと言っています。

以下の表 5 に、Distil-Whisper の主なパフォーマンス結果を示します。

著者らは、エンコーダをフリーズする操作により、Distil-Whisper はノイズに対して非常に堅牢になると述べています。下の図に示すように、Distil-Whisper は Whisper と同様の堅牢性曲線に従い、ノイズの多い条件下では Wav2vec2 などの他のモデルよりも優れたパフォーマンスを発揮します。

さらに、比較的長いオーディオファイルを処理する場合、Distil-Whisper は Whisper と比較して幻覚を効果的に削減しますが、これは主に WER フィルタリングによるものだと著者らは考えています。

同じエンコーダを共有することで、Distil-Whisper を Whisper と組み合わせて投機的デコードを行うことができます。これにより、Whisper と同じ出力を生成しながら、パラメータがわずか 8% 増加するだけで速度が 2 倍になります。

詳細については元の記事をご覧ください。

<<: ビッグモデル実装の最後の一歩: ビッグモデル評価の 111 ページに及ぶ包括的なレビュー

>>: AIは自分が生成したものを理解できるのか？GPT-4とMidjourneyを試した後、誰かがこの問題を解決した

2日間で星の数が1,000を突破：OpenAIのWhisperの蒸留後、音声認識が数倍高速化

XGBoost機械学習モデルの意思決定プロセス

Ctrip における Flutter マップのベストプラクティス

Google の社内機械学習プロジェクト「Project Ninja」の秘密を解明します。

WOT2018 Xian Yunsen: O2O検索にはアルゴリズムがあふれている

Python ディープラーニング: なぜディープラーニングを学ぶのか?

大型モデルが最高95.8%の精度で「人肉検索」を実施！研究著者：OpenAIはGoogle Metaに注意喚起された

ツールの選択からチームのコミュニケーションまで、ML エンジニアが実稼働レベルの機械学習を段階的に構築する様子をご覧ください。

ロボット自動化を実装する5つの方法

推薦する

ロボットは感染症の蔓延を抑制するためにどのように役立つのでしょうか?

AI ソフトウェアは教育分野にどのように役立つのでしょうか?

この方程式はバイナリツリーの森ですか?データから直接未知の支配方程式と物理的メカニズムを発見する

人工知能と機械学習における13の共通概念

自動運転の簡単な分析 - 衝突防止警報システム

製造バリューチェーンにおいて RPA に真のチャンスはあるのでしょうか?

GPT-4Vに挑戦する浙江大学の卒業生が、マルチモーダル大規模モデルのオープンソース版をリリースし、GitHubで6,000以上のスターを獲得しました。

ハーバード大学の研究者がAIを活用して世界中の密猟を阻止

データ駆動型パーソナライゼーションの時代: AI と ML がデータの読み取りと理解の方法をどのように変えているのか

2023 年のフィンテック業界における AI トレンドトップ 10

私たちは人工知能をどれほど深く誤解しているのか