Google は最近、エンドツーエンドのニューラル オーディオ コーデックである SoundStream をリリースしました。最も重要なのは、Google によれば、これはニューラル ネットワークによって駆動され、音声、音楽、環境音などのさまざまなサウンド タイプをサポートし、上記のさまざまなオーディオをスマートフォンのプロセッサ上でリアルタイムに処理できる世界初のオーディオ コーデックだという。
オーディオ コーデックは、オーディオ ファイルを圧縮してサイズを小さくし、送信時間をできるだけ節約するための重要なツールです。したがって、ストリーミング、オンライン音声、ビデオ通話など、オーディオ伝送を必要とするサービスでは、オーディオ コーデックが非常に重要です。 オーディオ コーデックはオーディオの音量を圧縮し、オーディオの伝送プロセスを高速化できますが、圧縮されたオーディオではオーディオの品質と詳細も失われるため、ユーザーが気付くような違いが生じます。ここで、SoundStream がそのギャップを埋めることができます。 Google は今年 2 月に、低ビットレートの音声用のニューラル オーディオ コーデック Lyra をリリースし、今年 4 月に正式にオープンソース化されました。 SoundStream は Lyra の拡張バージョンです。 SoundStream は、低ビットレートの「音声」における Lyra の機能を統合するだけでなく、クリアな音声、ノイズの多い音声、エコーのある音声、音楽、環境音など、より多くのサウンド タイプに対するエンコード サポートも備えています。 SoundStream は、エンコーダー、デコーダー、量子化器で構成されるニューラル ネットワーク システムを中心に構築されています。エンコーダーはオーディオをコード化された信号に変換し、その後量子化器を使用して圧縮し、デコーダーを使用してオーディオに戻します。したがって、ニューラル ネットワーク モデルをトレーニングした後、エンコーダーとデコーダーは異なるクライアントで動作できるようになり、品質を損なうことなくさまざまな環境でオーディオを送信できるようになります。 Google は、さまざまなオーディオ圧縮サンプルとオリジナルのオーディオサンプルの比較を自社の Web サイトで公開しています。比較テストの結果、SoundStream で処理された 3 kbps のオーディオは、Opus オーディオ コーデックで処理された 12 kbps のオーディオよりも優れており、その効果は ECS コーデックで処理された 9 kbps のオーディオに非常に近いものでした。 現在、Google 独自のオンライン会議プラットフォーム Google Meet とビデオ プラットフォーム YouTube では、引き続き Opus オーディオ コーデックが使用されています。 SoundStream の技術が進歩し続けるにつれ、Google が自社のサービスで同社の技術を使用するようになる日も近いかもしれません。 Googleは、SoundStreamは機械学習技術をオーディオコーデックに適用する上で重要なステップであり、現在最も先進的なコーデックであるOpusやEVSよりも優れていると述べた。 SoundStream は Lyra に統合され、Lyra の次のバージョンで利用できるようになります。開発者は既存の Lyra API とツールを活用して、より良い音質を提供できます。 この記事はOSCHINAから転載したものです この記事のタイトル: Google がニューラル ネットワーク コーデック SoundStream を発表、オープンソース プロジェクト Lyra に統合される予定 記事URL: https://www.oschina.net/news/155954/google-soundstream-neural-audio-codec |
<<: どのようなタイプのスマートビルが AI の導入をリードするのでしょうか?
>>: OpenAI CLIPモデルポケット版、24MBでテキスト画像マッチングを実現、iPhoneでも実行可能
人工知能が今日の情報技術分野で最もホットな話題であることは疑いの余地がなく、情報産業を豊かにし、改善...
科学者たちはすでに宇宙論の分野で大量のデータを処理するためにスーパーコンピュータを使用することに慣れ...
著者 | 湘湘天志 張波 他Twins は Meituan とアデレード大学が提案した視覚的注意モデ...
ザ・ペーパー記者 張偉最新の報告書によると、中国の人工知能特許出願件数は過去10年間で世界第1位であ...
アルゴリズムの式はかなり面倒で、機械学習は苦痛すぎる。機械学習を初めて学ぶ人は、複雑な数式やわかりに...
手術室で外科医をサポートするロボットや、X 線や MRI 画像の評価を支援するソフトウェアが登場して...
ビッグデータが何であるかを知っている人は多いですが、スモールデータと機械学習におけるその重要性を知っ...
今年上半期、中国と米国のインターネット・テクノロジー企業は、程度の差はあれ、レイオフや人員削減を経験...
自然言語生成 (NLG) のタスクとしてのテキスト要約は、主に長いテキストを短い要約に圧縮するために...
最近、数年間業界で働いているスタンフォード大学の AI 卒業生が、AI と機械学習のキャリアのために...
好きなように置き換えてください。保持する必要がある領域をフレームするだけで、AI がすべてを置き換え...