Google は最近、エンドツーエンドのニューラル オーディオ コーデックである SoundStream をリリースしました。最も重要なのは、Google によれば、これはニューラル ネットワークによって駆動され、音声、音楽、環境音などのさまざまなサウンド タイプをサポートし、上記のさまざまなオーディオをスマートフォンのプロセッサ上でリアルタイムに処理できる世界初のオーディオ コーデックだという。
オーディオ コーデックは、オーディオ ファイルを圧縮してサイズを小さくし、送信時間をできるだけ節約するための重要なツールです。したがって、ストリーミング、オンライン音声、ビデオ通話など、オーディオ伝送を必要とするサービスでは、オーディオ コーデックが非常に重要です。 オーディオ コーデックはオーディオの音量を圧縮し、オーディオの伝送プロセスを高速化できますが、圧縮されたオーディオではオーディオの品質と詳細も失われるため、ユーザーが気付くような違いが生じます。ここで、SoundStream がそのギャップを埋めることができます。 Google は今年 2 月に、低ビットレートの音声用のニューラル オーディオ コーデック Lyra をリリースし、今年 4 月に正式にオープンソース化されました。 SoundStream は Lyra の拡張バージョンです。 SoundStream は、低ビットレートの「音声」における Lyra の機能を統合するだけでなく、クリアな音声、ノイズの多い音声、エコーのある音声、音楽、環境音など、より多くのサウンド タイプに対するエンコード サポートも備えています。 SoundStream は、エンコーダー、デコーダー、量子化器で構成されるニューラル ネットワーク システムを中心に構築されています。エンコーダーはオーディオをコード化された信号に変換し、その後量子化器を使用して圧縮し、デコーダーを使用してオーディオに戻します。したがって、ニューラル ネットワーク モデルをトレーニングした後、エンコーダーとデコーダーは異なるクライアントで動作できるようになり、品質を損なうことなくさまざまな環境でオーディオを送信できるようになります。 Google は、さまざまなオーディオ圧縮サンプルとオリジナルのオーディオサンプルの比較を自社の Web サイトで公開しています。比較テストの結果、SoundStream で処理された 3 kbps のオーディオは、Opus オーディオ コーデックで処理された 12 kbps のオーディオよりも優れており、その効果は ECS コーデックで処理された 9 kbps のオーディオに非常に近いものでした。 現在、Google 独自のオンライン会議プラットフォーム Google Meet とビデオ プラットフォーム YouTube では、引き続き Opus オーディオ コーデックが使用されています。 SoundStream の技術が進歩し続けるにつれ、Google が自社のサービスで同社の技術を使用するようになる日も近いかもしれません。 Googleは、SoundStreamは機械学習技術をオーディオコーデックに適用する上で重要なステップであり、現在最も先進的なコーデックであるOpusやEVSよりも優れていると述べた。 SoundStream は Lyra に統合され、Lyra の次のバージョンで利用できるようになります。開発者は既存の Lyra API とツールを活用して、より良い音質を提供できます。 この記事はOSCHINAから転載したものです この記事のタイトル: Google がニューラル ネットワーク コーデック SoundStream を発表、オープンソース プロジェクト Lyra に統合される予定 記事URL: https://www.oschina.net/news/155954/google-soundstream-neural-audio-codec |
<<: どのようなタイプのスマートビルが AI の導入をリードするのでしょうか?
>>: OpenAI CLIPモデルポケット版、24MBでテキスト画像マッチングを実現、iPhoneでも実行可能
ガートナー曲線について聞いたことがあるかもしれません。新しい技術が初めて導入されたとき、誰も興味を示...
人工知能、宇宙、そしてあらゆるものを計算的に考えるにはどうすればよいでしょうか?最近、有名なイギリス...
まず、負荷分散とは何かを紹介します(百科事典より)負荷分散は既存のネットワーク構造に基づいて構築され...
1. 人工知能とディープラーニング2016年、AlphaGoとイ・セドルの囲碁対決は間違いなく、人工...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
Microsoft は、仮想会議用に Mesh for Teams と呼ばれる没入型 3D プラット...
数日前に話題になった「中国ビッグモデル「トップストリームグループチャット」ノート」を見た人は多いはず...
8月2日、Googleの研究チームはOpenAIのGPT-4を使用して他のAIモデルのセキュリティ保...
2019年、中国の人工知能市場は「熱狂的」だった。IDCの統計によると、世界の人工知能市場規模は20...
機械学習におけるデザインパターン定義上、デザイン パターンは一般的な問題に対する再利用可能なソリュー...
最近、国立国防科技大学の徐凱教授のチームは、高速移動に対するランダム最適化に基づくオンライン RGB...
[[432622]] 【51CTO.com クイック翻訳】はじめにこのプロジェクトでは、簡単なコード...
中国政府は人工知能を国家戦略のレベルにまで高めた。 2017年7月、国務院は「次世代人工知能発展計画...
人工知能は近い将来、人間の知能を超える可能性を秘めている。テクノロジーは飛躍的に進歩しましたが、AI...