少し前に、「テイラー・スウィフトが中国語を披露」する動画がさまざまなソーシャルメディアプラットフォームで人気となり、その後「郭徳剛が英語を披露」といった類似の動画も続いた。これらのビデオの多くは、「HeyGen」と呼ばれる AI アプリケーションから作成されています。 しかし、HeyGen の現在の人気から判断すると、同様のビデオを作成するには長い時間がかかる可能性があります。幸いなことに、これが唯一の方法ではありません。テクノロジーに精通している人は、音声テキスト変換モデル Whisper、テキスト翻訳 GPT、サウンドの複製 + オーディオ生成 so-vits-svc、オーディオに一致する唇の形のビデオを生成する GeneFace++ など、他の代替手段を探すこともできます。 その中でも、音声テキスト変換のWhisperモデルは非常に有用です。 Whisper は、OpenAI によって開発され、オープンソース化された自動音声認識 (ASR) モデルです。インターネットから 680,000 時間分の多言語 (98 言語) およびマルチタスクの教師ありデータを収集して、Whisper をトレーニングしました。 OpenAI は、このような大規模で多様なデータセットを使用することで、アクセント、背景ノイズ、技術用語を認識するモデルの能力が向上すると考えています。 Whisper は音声認識に使用されるだけでなく、複数の言語で文字起こししたり、それらの言語を英語に翻訳したりすることもできます。現在、Whisper には多くのバリエーションがあり、多くの AI アプリケーションを構築するために不可欠なコンポーネントとなっています。 最近、HuggingFace のチームが新しいバリエーションである Distil-Whisper を提案しました。このバリアントは、Whisper モデルの精製バージョンです。小型で高速、高精度であるため、レイテンシが低い環境やリソースが限られている環境に最適です。ただし、複数の言語を処理できる元の Whisper モデルとは異なり、Distil-Whisper は英語のみを処理できます。 論文アドレス: https://arxiv.org/pdf/2311.00430.pdf 具体的には、Distil-Whisper には、756M パラメータ (distil-large-v2) と 394M パラメータ (distil-medium.en) の 2 つのバージョンがあります。 OpenAIのWhisper-large-v2と比較すると、distil-large-v2の756Mバージョンはパラメータ数が半分以下に抑えられているにもかかわらず、6倍の高速化を実現し、精度の面でもWhisper-large-v2に非常に近いものとなっています。短い音声の単語誤り率(WER)の差は1%以内で、長い音声ではWhisper-large-v2よりもさらに優れています。これは、慎重なデータ選択とフィルタリングにより、Whisper の堅牢性が維持され、幻覚が軽減されるためです。 Whisper と Distil-Whisper の Web バージョンの速度を直接比較します。画像出典: https://twitter.com/xenovacom/status/1720460890560975103 ということで、Distil-Whisper はリリースされてからまだ 2 ~ 3 日しか経っていないのに、すでに星が 1,000 個を超えています。
さらに、テスト結果では、150 分のオーディオを処理する場合、Distil-Whisper は Faster-Whisper よりも 2.5 倍高速であることが示されました。 テストリンク: https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper それで、どのようにしてこのような良い結果が達成されたのでしょうか?著者らは論文の中で、疑似ラベリング技術を使用して大規模なオープンソースデータセットを構築し、このデータセットを使用して Whisper モデルを Distil-Whisper に抽出したと述べています。シンプルな WER ヒューリスティックを使用して、トレーニング用に最高品質の疑似ラベルのみを選択します。 下の図 1 は、Distil-Whisper のアーキテクチャを示しています。研究者たちは、教師モデルからエンコーダー全体をコピーして生徒モデルを初期化し、トレーニング中にそれを凍結しました。彼らは、OpenAI の Whisper-medium.en および Whisper-large-v2 モデルから、最初と最後のデコーダー レイヤーをコピーして、それぞれ distil-medium.en と distil-large-v2 と名付けた 2 層デコーダー チェックポイントを抽出しました。 蒸留モデルの寸法詳細は表3に示されています。 データに関しては、モデルは 9 つの異なるオープンソース データセットで 22,000 時間トレーニングされました (表 2 を参照)。疑似ラベルは Whisper によって生成されます。重要なのは、WER フィルターを使用して、WER スコアが 10% を超えるラベルのみが保持されたことです。著者は、これがパフォーマンスを維持するための鍵だと言っています。 以下の表 5 に、Distil-Whisper の主なパフォーマンス結果を示します。 著者らは、エンコーダをフリーズする操作により、Distil-Whisper はノイズに対して非常に堅牢になると述べています。下の図に示すように、Distil-Whisper は Whisper と同様の堅牢性曲線に従い、ノイズの多い条件下では Wav2vec2 などの他のモデルよりも優れたパフォーマンスを発揮します。 さらに、比較的長いオーディオ ファイルを処理する場合、Distil-Whisper は Whisper と比較して幻覚を効果的に削減しますが、これは主に WER フィルタリングによるものだと著者らは考えています。 同じエンコーダを共有することで、Distil-Whisper を Whisper と組み合わせて投機的デコードを行うことができます。これにより、Whisper と同じ出力を生成しながら、パラメータがわずか 8% 増加するだけで速度が 2 倍になります。 詳細については元の記事をご覧ください。 |
<<: ビッグモデル実装の最後の一歩: ビッグモデル評価の 111 ページに及ぶ包括的なレビュー
>>: AIは自分が生成したものを理解できるのか?GPT-4とMidjourneyを試した後、誰かがこの問題を解決した
近年、ビッグデータは非常に人気があり、特に2017年には、ビッグデータ産業の発展が政府活動報告に記載...
近年、都市化と道路交通建設の加速により、自動車旅行の需要が継続的に増加しており、道路上の車両数の継続...
[51CTO.com クイック翻訳]ディープニューラルネットワークは、視覚情報を処理する強力な能力で...
ChatGPT などの大規模な Transformer ベースの言語モデルには、非常に強力なコンテ...
[[235958]] 「医師はAIに取って代わられるか?」という質問に対し、鼎祥源の創業者李天天氏は...
私たちは、アルゴリズムの時間計算量や空間計算量についてよく考えます。時間や空間が十分にある場合、その...
「ネットワークの向こう側に犬がいるかどうかは分からない」 - テクノロジーの発展により、同じ原理が...
推奨システムの分野では、モデルのオンラインとオフラインのパフォーマンスに大きなギャップがあるという問...
デジタルトランスフォーメーションは10年以上にわたってビジネス変革の中核を担ってきましたが、AIの台...
人工知能により、研究者や製造業者は生活の質を向上させることができます。 [[419960]]人工知能...
DriveLM は、データセットとモデルで構成される言語ベースのドライブ プロジェクトです。 Dri...
2月18日に火星への着陸に成功したNASAの火星探査車パーサヴィアランスは、火星での2年間の探査ミッ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
「当社はサイバーセキュリティの専門家とサービスプロバイダーの協力を得て、問題解決に向けて直ちに行動を...