Meta がテキストを音声に変換するオープンソースライブラリ AudioCraft をリリース

Meta がテキストを音声に変換するオープンソースライブラリ AudioCraft をリリース

最近、Meta は Llama シリーズのモデルやすべてを分割する SAM モデルなど、複数の AI モデルをリリースし、オープンソース化しました。これらのモデルはオープンソース コミュニティにおける研究の進歩を推進してきました。現在、Meta はさまざまなオーディオを生成できる PyTorch ライブラリである AudioCraft をオープンソース化し、その技術的な詳細を公開しました。


  • コードアドレス: https://github.com/facebookresearch/audiocraft
  • プロジェクトのホームページ:

https://audiocraft.metademolab.com/?utm_source=twitter&utm_medium=organic_social&utm_campaign=audiocraft&utm_cnotallow=card

AudioCraft は、ユーザーが入力したテキストに基づいて、高品質で忠実度の高いオーディオを生成します。まずは生成されたエフェクトを聞いてみましょう。

AudioCraft は、「風が吹くと口笛が吹く」というテキストプロンプトを入力するなど、実際の音を生成できます。

音声1 、同期、5秒

また、メロディックな音楽を生成することもできます。たとえば、テキストプロンプトを入力すると、「キャッチーなメロディ、トロピカルなパーカッション、アップビートなリズムのポップダンストラック。ビーチにぴったり」

ボイス2 、マシンハート、30秒

特定の楽器を選択して、特定の音楽を生成することもできます。たとえば、「アースカラー、環境に配慮、ウクレレを取り入れた、ハーモニー、さわやか、気楽、オーガニックな楽器、穏やかなグルーヴ」というテキストプロンプトを入力します。

ボイス3 、マシンハート、30秒

オーディオクラフトについて

テキストや画像と比較すると、高忠実度のオーディオを生成するには複雑な信号とパターンをモデル化する必要があるため、オーディオの生成はより困難です。

さまざまなオーディオを高品質で生成するために、AudioCraft には MusicGen、AudioGen、EnCodec の 3 つのモデルが含まれています。このうち、MusicGen は Meta の著作権保護された音楽データを使用してトレーニングされ、ユーザーが入力したテキストに基づいて音楽を生成します。AudioGen は公開されている効果音データを使用してトレーニングされ、ユーザーが入力したテキストに基づいてオーディオを生成します。EnCodec はオーディオを圧縮し、元の信号を忠実度の高い方法で再構築して、生成された音楽が高品質であることを保証します。

生のオーディオ信号からオーディオを生成するには、非常に長いシーケンスをモデリングする必要があります。たとえば、44.1 kHz でサンプリングされた数分間の音楽は、数百万のタイムステップで構成されます。対照的に、Llama や Llama 2 などのテキストベースの生成モデルは、テキストをサブワードに処理し、サンプルごとに数千の時間ステップしか必要としません。

MusicGen は、音楽生成向けにカスタマイズされたオーディオ生成モデルです。音楽トラックはアンビエントサウンドよりも複雑であり、新しい音楽作品を作成する際には、長期的な構造にわたって一貫したサンプルを生成することが非常に重要です。 MusicGen は、約 400,000 件の録音とテキストの説明、メタデータに基づいてトレーニングされ、合計 20,000 時間分の音楽が収録されました。

AudioGen モデルは、犬の鳴き声、車のクラクション、足音などの環境音や効果音を生成できます。

AudioGen モデル アーキテクチャ。

EnCodec ニューラル オーディオ コーデックは、元の信号から個別のオーディオ トークンを学習します。これは、音楽サンプルに新しい固定された「語彙」を提供することに相当します。その後、研究チームは、これらの個別のオーディオ トークンに対して自己回帰言語モデルをトレーニングし、EnCodec のデコーダーを使用してトークンをオーディオ空間に戻すときに、新しいトークン、サウンド、および音楽を生成しました。

一般的に、AudioCraft はオーディオ生成モデルの全体的な設計を簡素化します。 MusicGen と AudioGen はどちらも単一の自己回帰言語モデルで構成され、圧縮された個別の音楽表現 (トークン) のストリームに対して動作します。 AudioCraft を使用すると、ユーザーは、事前トレーニング済みのテキスト エンコーダーを使用したテキストからオーディオへの生成など、さまざまな種類の条件付きモデルを使用して生成を制御できます。

<<: 

>>:  NeRFは線画に基づいてリアルな3D顔を生成し、詳細とスタイルを自由に変更できる。この論文はSIGGRAPHに提出されている。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ビッグデータと機械学習を駆使して12星座の素顔を明らかにする!

[[201919]] 「なぜ論文が出版されないのでしょうか?私は研究に向いていないのでしょうか?」...

...

製薬業界を覆すAIは「仕掛け」か「希望」か?

人工知能 (AI) は、過去 10 年ほどの間に SF の世界から現実の世界へと移行し、地球上のほぼ...

データサイエンスについて知っておくべきこと: 10 の重要な概念 + 22 のグラフ

01 バイアスと分散のトレードオフこれは、機械学習における最も重要な理論の中で常に上位にランクされ...

...

...

FenyintaのCTO、張明氏:観光産業を深く掘り下げ、AI技術を使って異言語コミュニケーションの問題を解決する

[51CTO.comからのオリジナル記事] 1930年代初頭、フランスの科学者GBアルチュニは翻訳に...

中国科学院のチームは、最初のLLMモデル圧縮レビューを発表しました。剪定、知識蒸留、量子化技術の詳細な議論です。

最近、大規模言語モデル (LLM) はさまざまなタスクで優れたパフォーマンスを示しています。しかし、...

人工知能分野で最も有望な技術トップ10

2018年世界ロボット会議が北京で開催され、ロボット産業の最先端技術が披露されました。世界的なロボ...

機械学習で避けるべき3つのよくある間違い

企業は、お金の無駄遣い、アプリケーションのパフォーマンスの低下、成果の得られないという 3 つの間違...

テキストアドベンチャーゲームは人工知能の助けを借りて新たな命を吹き込まれる

こんなゲームがあります:あなたの名前はシャオミン、ラリオンの高貴な領主であり、あなたの指揮下に多数の...

MITチームの新しいテストはAIの推論と人間の思考を比較する

AI が洞察を導き出し、意思決定を行う方法は謎に包まれていることが多く、機械学習の信頼性について懸...

データ分析とAIのミスが原因の注目度の高い事件9件

2017年、『エコノミスト』誌は、石油ではなくデータが世界で最も価値のある資源になったと宣言しました...

AIが達成できること

半世紀にわたり、人工知能はコンピュータ開発の夢でしたが、常に手の届かないところにありました。しかし、...

...