Meta がテキストを音声に変換するオープンソースライブラリ AudioCraft をリリース

Meta がテキストを音声に変換するオープンソースライブラリ AudioCraft をリリース

最近、Meta は Llama シリーズのモデルやすべてを分割する SAM モデルなど、複数の AI モデルをリリースし、オープンソース化しました。これらのモデルはオープンソース コミュニティにおける研究の進歩を推進してきました。現在、Meta はさまざまなオーディオを生成できる PyTorch ライブラリである AudioCraft をオープンソース化し、その技術的な詳細を公開しました。


  • コードアドレス: https://github.com/facebookresearch/audiocraft
  • プロジェクトのホームページ:

https://audiocraft.metademolab.com/?utm_source=twitter&utm_medium=organic_social&utm_campaign=audiocraft&utm_cnotallow=card

AudioCraft は、ユーザーが入力したテキストに基づいて、高品質で忠実度の高いオーディオを生成します。まずは生成されたエフェクトを聞いてみましょう。

AudioCraft は、「風が吹くと口笛が吹く」というテキストプロンプトを入力するなど、実際の音を生成できます。

音声1 、同期、5秒

また、メロディックな音楽を生成することもできます。たとえば、テキストプロンプトを入力すると、「キャッチーなメロディ、トロピカルなパーカッション、アップビートなリズムのポップダンストラック。ビーチにぴったり」

ボイス2 、マシンハート、30秒

特定の楽器を選択して、特定の音楽を生成することもできます。たとえば、「アースカラー、環境に配慮、ウクレレを取り入れた、ハーモニー、さわやか、気楽、オーガニックな楽器、穏やかなグルーヴ」というテキストプロンプトを入力します。

ボイス3 、マシンハート、30秒

オーディオクラフトについて

テキストや画像と比較すると、高忠実度のオーディオを生成するには複雑な信号とパターンをモデル化する必要があるため、オーディオの生成はより困難です。

さまざまなオーディオを高品質で生成するために、AudioCraft には MusicGen、AudioGen、EnCodec の 3 つのモデルが含まれています。このうち、MusicGen は Meta の著作権保護された音楽データを使用してトレーニングされ、ユーザーが入力したテキストに基づいて音楽を生成します。AudioGen は公開されている効果音データを使用してトレーニングされ、ユーザーが入力したテキストに基づいてオーディオを生成します。EnCodec はオーディオを圧縮し、元の信号を忠実度の高い方法で再構築して、生成された音楽が高品質であることを保証します。

生のオーディオ信号からオーディオを生成するには、非常に長いシーケンスをモデリングする必要があります。たとえば、44.1 kHz でサンプリングされた数分間の音楽は、数百万のタイムステップで構成されます。対照的に、Llama や Llama 2 などのテキストベースの生成モデルは、テキストをサブワードに処理し、サンプルごとに数千の時間ステップしか必要としません。

MusicGen は、音楽生成向けにカスタマイズされたオーディオ生成モデルです。音楽トラックはアンビエントサウンドよりも複雑であり、新しい音楽作品を作成する際には、長期的な構造にわたって一貫したサンプルを生成することが非常に重要です。 MusicGen は、約 400,000 件の録音とテキストの説明、メタデータに基づいてトレーニングされ、合計 20,000 時間分の音楽が収録されました。

AudioGen モデルは、犬の鳴き声、車のクラクション、足音などの環境音や効果音を生成できます。

AudioGen モデル アーキテクチャ。

EnCodec ニューラル オーディオ コーデックは、元の信号から個別のオーディオ トークンを学習します。これは、音楽サンプルに新しい固定された「語彙」を提供することに相当します。その後、研究チームは、これらの個別のオーディオ トークンに対して自己回帰言語モデルをトレーニングし、EnCodec のデコーダーを使用してトークンをオーディオ空間に戻すときに、新しいトークン、サウンド、および音楽を生成しました。

一般的に、AudioCraft はオーディオ生成モデルの全体的な設計を簡素化します。 MusicGen と AudioGen はどちらも単一の自己回帰言語モデルで構成され、圧縮された個別の音楽表現 (トークン) のストリームに対して動作します。 AudioCraft を使用すると、ユーザーは、事前トレーニング済みのテキスト エンコーダーを使用したテキストからオーディオへの生成など、さまざまな種類の条件付きモデルを使用して生成を制御できます。

<<: 

>>:  NeRFは線画に基づいてリアルな3D顔を生成し、詳細とスタイルを自由に変更できる。この論文はSIGGRAPHに提出されている。

推薦する

買い物客の4分の3がレジなし店舗を試してみたいと考えている

[[418996]]画像ソース: https://pixabay.com/images/id-391...

...

...

リスト管理?機械学習のためのデータセット

[[440033]]データが機械学習において重要な役割を果たすことは否定できません。各機械学習モデル...

これが顔認識と画像認識がますます重要になっている理由です

捜査チームがスケッチアーティストを雇って、目撃者が語った犯人像を描いてもらう犯罪番組を見たことを覚え...

スマートコミュニティはどれくらい「スマート」なのでしょうか?知能の背後にある技術的応用を解釈する

モノのインターネット技術の発展と普及に伴い、WIFi、GPRS、LoRaWANなどの通信プロトコルが...

AIは中国のSaaS状況を打破できるか?

SaaS はバリューチェーンが短く、拡張性が速く、キャッシュフローが高いという優れたビジネスですが...

レノボ、HPC+AI によるアルゴリズムの世界を構築する初のハイブリッド インテリジェンス アカデミック カンファレンスに初参加

8月25日〜26日、第1回中国認知コンピューティングおよびハイブリッドインテリジェンス学術会議が西安...

...

...

FudanNLPチームの最新の成果、RLHFと人間のアラインメントのためのMOSS-RLHFがここにあります

ChatGPT に代表される大規模言語モデル (LLM) がさまざまなタスクで効率的にパフォーマンス...

人工知能は本当に私たちが思っているほど賢いのでしょうか?

人工知能は最近、私たちの私生活や仕事で非常に活躍していますロボット工学と同様に、人工知能(AI)も長...

初心者必読!畳み込みニューラルネットワークの始め方

畳み込みニューラル ネットワークは、ディープ ニューラル ネットワークの中で非常に人気のあるネットワ...

畳み込みニューラルネットワーク(CNN)を使用して、最大95%の精度で皮膚がんを検出します。

ドイツ、米国、フランスの研究者で構成された研究チームは、10万枚以上の画像を使用して、畳み込みニュー...