この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 最近、Facebook は世界最大の多言語音声データセットである VoxPopuli をオープンソース化しました。 このデータセットは23 の言語をカバーし、 400,000時間以上にわたります。 各言語には、9,000 ~ 18,000 時間のラベルなし音声データがあります。 さらに、16 言語で合計 1,800 時間の文字起こし音声データと、15 の対象言語で合計 17,300 時間の通訳音声データも含まれています。 海外のネットユーザーたちはすぐにこの行動を賞賛した。
このデータセットの大量のラベルなしデータと幅広い言語カバレッジは、自己教師モデルの改善に大いに役立ちます。 Facebook はまた、音声変換ニューラル ネットワークのトレーニングの信頼性を高めるために、音声データセットの品質と堅牢性の向上にも貢献したいと考えています。 最終的には、新しい NLP システムの開発が加速され、AI 翻訳がますます効果的になります。 データセットの名前である VoxPopuli は文字通り「人々の声」を意味し、元のデータのソースも示しています。 ソース音声はすべて、2009年から2020年までの欧州議会の活動の録音から収集されています。 2010年ヨーロッパ会議のコーパス欧州議会の本会議、委員会会議、その他の行事などの各行事では、演説者が交代でさまざまな EU 言語で演説を行います。 Facebook は、欧州会議の公式ウェブサイトから各スピーチのテキストトランスクリプト、講演者情報、開始/終了タイムスタンプを取得しました。 次に、すべての生の音声データが処理され、大まかに次の 3 つのカテゴリに分類されます。 23 言語の 40 万時間分のラベルなし音声データ 各言語には 8,000 から 20,000 を超える生の音声データがあります。 そのため、Facebook のエネルギーベースの音声起動検出 (VAD) アルゴリズムは、完全なオーディオを 15 ~ 30 秒の短いセグメントに分割します。 最終的に、データの不均衡があまりなく、データ サンプリング戦略の調整を必要としないデータセットが得られます。 したがって、多言語モデルのトレーニングに非常に適しています。 上記の表には、ラベルなしデータに加えて、2 番目のタイプである書き起こされた音声データも含まれています。 16言語で1,800時間分の音声データを書き起こしたもの 欧州会議の公式タイムスタンプは会議の講演者を特定するために使用できますが、多くの場合、短縮されたり、前後のスピーチのクリップと混ざったりするため、完全に正確ではありません。 そのため、Facebook は完全な会話音声に声紋セグメンテーションとクラスタリング (SD) を使用します。 この時点での音声セグメントの平均長さは 197 秒であり、その後、音声認識 (ASR) システムを使用して、約 20 秒の短いセグメントに分割されます。 上の表を見ると、最終データには、各言語の継続時間、話者数、女性話者の割合、マーカー数など、さまざまな属性が含まれていることがわかります。 15 のターゲット言語で 17,300 時間の通訳音声データ: それぞれのオリジナルスピーチには対応する同時通訳があり、それらは相互に関連しています。 しかし、このデータセットを使用できるようにするには、徹底的な前処理とフィルタリングを行う必要があります。 そのため、Facebook は自動音声認識 (ASR) システムを使用して、ソース音声とターゲット音声を文レベルで一致させました。 領域外半教師あり学習における一般化可能性それで、このデータセットはどのように機能するのでしょうか? まず、ドメイン外、言語外の教師なし事前トレーニングを使用して、少数ショットの音声認識を行います。 表から、VP-Mono5K は 5 つの VoxPopuli 言語において XLSR-Mono および XLSR-10 よりも優れていることがわかります。 VP-100K は、10 言語のうち 8 言語で XLSR-10 よりも優れたパフォーマンスを発揮します。 また、XLSR-53 は Zh 言語をカバーしていますが、Zh でのパフォーマンスは VP-100K (Large) には遠く及びません。 これは、VP-100K によって学習された音声表現が非常に一般化可能であることを示しています。 次に、VoxPopuli データセットを使用した自己トレーニングまたは弱い監督のための言語翻訳 (ST) と音声認識 (ASR) があります。 表からわかるように、ドメイン内言語かドメイン外言語かに関係なく、VoxPopuli の自己トレーニングによってほとんどの場合パフォーマンスが向上します。 また、翻訳では高価なラベルデータを追加する必要はありません。 自己トレーニングを通じて、エンドツーエンド モデルとカスケード モデル間のギャップを狭めることができます。 論文の宛先: ダウンロード: |
<<: ドローンによる空中撮影は野生の人々に迷惑をかけている、問題解決の鍵はここにある
上海がゴミの分別を推進し始めて以来、クレイジーな上海寧は多くのジョークや絵文字を投稿し、大多数のネッ...
[[414878]]私たちは、あらゆるものが感知され、接続され、インテリジェントになる世界に突入して...
Google は検索の問題を解決したと多くの人が考えていますが、Google の観点から見ると、検索...
社会の発展と科学技術の進歩に伴い、人工知能技術が人類に与える影響は日々増大しており、その応用分野は拡...
[[440377]]はじめに12月7日、英国のドローン戦争ウェブサイトは、人工知能が各国の軍事部門に...
[[187064]]人工知能を研究するアメリカの企業カーネルの投資家ブライアン・ジョンソン氏は、埋...
ショートビデオの推奨やソーシャル推奨などのアプリケーションシナリオでは、推奨システムは大量の急速に変...
誇大宣伝を信じるなら、人工知能 (AI) と機械学習 (ML) はすでに現代の IT インフラストラ...
1. グラフニューラルネットワーク入門グラフ ニューラル ネットワークについて説明する前に、まずグラ...
2021年1月、OpenAIはDALL-EとCLIPという2つの新しいモデルを発表しました。どちらも...
職場におけるロボット工学と自動化の利用増加に対応するために、企業は最高ロボット工学責任者 (CRO)...
今日、クラウド コンピューティングが新興テクノロジーの主要な推進力となっていることは間違いありません...