Meta がテキストを音声に変換するオープンソースライブラリ AudioCraft をリリース

Meta がテキストを音声に変換するオープンソースライブラリ AudioCraft をリリース

最近、Meta は Llama シリーズのモデルやすべてを分割する SAM モデルなど、複数の AI モデルをリリースし、オープンソース化しました。これらのモデルはオープンソース コミュニティにおける研究の進歩を推進してきました。現在、Meta はさまざまなオーディオを生成できる PyTorch ライブラリである AudioCraft をオープンソース化し、その技術的な詳細を公開しました。


  • コードアドレス: https://github.com/facebookresearch/audiocraft
  • プロジェクトのホームページ:

https://audiocraft.metademolab.com/?utm_source=twitter&utm_medium=organic_social&utm_campaign=audiocraft&utm_cnotallow=card

AudioCraft は、ユーザーが入力したテキストに基づいて、高品質で忠実度の高いオーディオを生成します。まずは生成されたエフェクトを聞いてみましょう。

AudioCraft は、「風が吹くと口笛が吹く」というテキストプロンプトを入力するなど、実際の音を生成できます。

音声1 、同期、5秒

また、メロディックな音楽を生成することもできます。たとえば、テキストプロンプトを入力すると、「キャッチーなメロディ、トロピカルなパーカッション、アップビートなリズムのポップダンストラック。ビーチにぴったり」

ボイス2 、マシンハート、30秒

特定の楽器を選択して、特定の音楽を生成することもできます。たとえば、「アースカラー、環境に配慮、ウクレレを取り入れた、ハーモニー、さわやか、気楽、オーガニックな楽器、穏やかなグルーヴ」というテキストプロンプトを入力します。

ボイス3 、マシンハート、30秒

オーディオクラフトについて

テキストや画像と比較すると、高忠実度のオーディオを生成するには複雑な信号とパターンをモデル化する必要があるため、オーディオの生成はより困難です。

さまざまなオーディオを高品質で生成するために、AudioCraft には MusicGen、AudioGen、EnCodec の 3 つのモデルが含まれています。このうち、MusicGen は Meta の著作権保護された音楽データを使用してトレーニングされ、ユーザーが入力したテキストに基づいて音楽を生成します。AudioGen は公開されている効果音データを使用してトレーニングされ、ユーザーが入力したテキストに基づいてオーディオを生成します。EnCodec はオーディオを圧縮し、元の信号を忠実度の高い方法で再構築して、生成された音楽が高品質であることを保証します。

生のオーディオ信号からオーディオを生成するには、非常に長いシーケンスをモデリングする必要があります。たとえば、44.1 kHz でサンプリングされた数分間の音楽は、数百万のタイムステップで構成されます。対照的に、Llama や Llama 2 などのテキストベースの生成モデルは、テキストをサブワードに処理し、サンプルごとに数千の時間ステップしか必要としません。

MusicGen は、音楽生成向けにカスタマイズされたオーディオ生成モデルです。音楽トラックはアンビエントサウンドよりも複雑であり、新しい音楽作品を作成する際には、長期的な構造にわたって一貫したサンプルを生成することが非常に重要です。 MusicGen は、約 400,000 件の録音とテキストの説明、メタデータに基づいてトレーニングされ、合計 20,000 時間分の音楽が収録されました。

AudioGen モデルは、犬の鳴き声、車のクラクション、足音などの環境音や効果音を生成できます。

AudioGen モデル アーキテクチャ。

EnCodec ニューラル オーディオ コーデックは、元の信号から個別のオーディオ トークンを学習します。これは、音楽サンプルに新しい固定された「語彙」を提供することに相当します。その後、研究チームは、これらの個別のオーディオ トークンに対して自己回帰言語モデルをトレーニングし、EnCodec のデコーダーを使用してトークンをオーディオ空間に戻すときに、新しいトークン、サウンド、および音楽を生成しました。

一般的に、AudioCraft はオーディオ生成モデルの全体的な設計を簡素化します。 MusicGen と AudioGen はどちらも単一の自己回帰言語モデルで構成され、圧縮された個別の音楽表現 (トークン) のストリームに対して動作します。 AudioCraft を使用すると、ユーザーは、事前トレーニング済みのテキスト エンコーダーを使用したテキストからオーディオへの生成など、さまざまな種類の条件付きモデルを使用して生成を制御できます。

<<: 

>>:  NeRFは線画に基づいてリアルな3D顔を生成し、詳細とスタイルを自由に変更できる。この論文はSIGGRAPHに提出されている。

ブログ    
ブログ    
ブログ    

推薦する

機械学習における 5 つのよくある問題点とその解決方法

[[394332]]機械学習のさまざまな使用例について聞いたことがあるかもしれません。たとえば、カン...

LLaMA 2 エンドツーエンド推論が利用可能になりました。中国チームより

Buddy CompilerのエンドツーエンドLLaMA2-7B推論例がbuddy-mlirリポジト...

リアルタイムの高忠実度レンダリング、PlenOctrees に基づく NeRF レンダリング速度が 3000 倍に向上

[[393143]]まばらな静止画像から任意の 3D オブジェクトとシーンの新しいビューを合成するこ...

人工知能は人間と同じくらい創造的になれるのでしょうか?

創造性は、芸術、文学、科学、技術など、斬新で価値があり、意義のある作品を生み出すことを可能にする人間...

...

...

Hubo Technologyが「2019年グローバルフィンテックイノベーションTOP50」に選出されました

最近、世界をリードするインテリジェント金融検索エンジンであるHubo Technologyが「201...

30秒で署名、上海の核酸採取ロボットが登場!

COVID-19の流行が続き、核酸検査が広範囲で徐々に常態化している中、複数の組織が核酸検査用ロボ...

Google、ブラウザで動作するプログラミング不要のAIトレーニングツールをアップデート

Google は人工知能トレーニング ツール「Teachable Machine」をアップグレードし...

Llama 2を破り、GPT-3.5と競合するStability AIの新モデルがオープンソースの大規模モデルのリストでトップに

「たった30分の昼休みを取っただけで、私たちの分野はまた変わってしまったのか?」最新のオープンソース...

スノーフレークアルゴリズムの実装原理を理解する

前提Snowflake は、Twitter のオープンソースの高性能 ID 生成アルゴリズム (サー...

サプライチェーン管理における AI イノベーションを活用するために従業員を再教育する方法

サプライチェーン管理は最適化ゲームです。 AI の導入により、企業は最適な成果の達成にさらに注力でき...

人工知能の発展の潮流の中で、数学教育はどこに向かうべきでしょうか?

[[228737]] 「人工知能(AI)」という言葉は、誰もがよく知っていると思います。この業界で...

監督が消えた! Midjourney+Miaoyaカメラ+Gen2の新ゲームプレイ:10元でMuskユニバースを作成し、ワンクリックでビデオを作成します

生成 AI の爆発的な増加により、無限の可能性がもたらされました。最近、国内ではミャオヤカメラがイン...

将来、ロボットは手術を支援し、反復作業をより効率的に実行できるようになるかもしれない。

人々は人工知能の急速な発展と、さまざまな業界でのその応用事例を目撃してきました。ヘルスケアは、AI、...