MITとワトソン研究所のチームが、ジェスチャーを見るだけで音楽を完璧に再現する最新のAIを発表

MITとワトソン研究所のチームが、ジェスチャーを見るだけで音楽を完璧に再現する最新のAIを発表

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

楽器を演奏できる人は、人生において周囲に光輪を持っているようなものです。

しかし、楽器を習うのは本当に難しく、始めたものの途中でやめてしまうという悪循環に陥ってしまう人も多いのです。

しかし、楽器が演奏できないと、本当に良い音楽を演奏できないのでしょうか?

最近、マサチューセッツ工科大学(MIT)とMIT-IBMワトソンAIラボが共同で、演奏ジェスチャーに基づいて音楽の元のサウンドを完璧に復元できるAIモデル「Foley Music」を開発しました。

また、楽器の違いも区別しません。バイオリン、ピアノ、ウクレレ、ギター、すべて許容されます。

楽器を手に取れば、それはプロのコンサートです!異なる音色がお好みの場合は、音楽スタイルを A、F、または G に編集することもできます。

「Foley Music: ビデオから音楽を生成する方法を学ぶ」というタイトルのこの技術論文は、ECCV 2020 に掲載されました。

次に、AIモデルがどのように音楽を復元するかを見てみましょう。

複数の楽器を演奏できるフォーリーミュージック

ダンスのための音楽を作曲するには、身体の動きとダンスのスタイルを理解する必要があるのと同様に、楽器奏者のための音楽を作曲するには、彼らの身振り、動き、使用する楽器を理解する必要があります。

演奏ビデオを与えると、AI は対象オブジェクトのボディ キーポイント、演奏されている楽器やサウンドを自動的にロックします。

本文の要点:AI システムの視覚認識モデルによって完成されます。体の姿勢とジェスチャーという 2 つの指標を通じてフィードバックを提供します。一般的に、体は 25 個の 2D ポイントを抽出でき、指は 21 個の 2D ポイントを持ち上げることができます。

楽器音の抽出:オーディオ表現モデルが使用されます。このモジュールでは、研究者は楽器デジタルインターフェース (MIDI) のオーディオ表現形式を提案しました。これは、Foley Music を他のモデルと区別する重要な点です。

研究者によると、6秒間のパフォーマンスビデオでは通常約500個のMIDIイベントが生成され、これを標準的な音楽シンセサイザーに簡単にインポートして音楽波形を生成できるという。

情報の抽出と処理が完了すると、ビジュアルオーディオモデルはすべての情報を統合して変換し、最終的な一致する音楽を生成します。

まず、その完全なアーキテクチャ図を見てみましょう。これは主に、ビジュアル エンコーディング、MIDI デコード、MIDI 波形出力の 3 つの部分で構成されています。

ビジュアル エンコーディング:ビジュアル情報をエンコードし、コンバーターの MIDI デコーダーに渡します。ビデオフレームから主要な座標点を抽出し、GCN (Graph-CNN) を使用して、時間の経過に伴って変化する人体のダイナミクスの潜在的な表現をキャプチャします。

MIDI デコーダー:グラフ トランスフォーマーを使用して、人間の姿勢の特徴と MIDI イベント間の相関関係をモデル化します。トランスフォーマーは、エンコーダーとデコーダーをベースとした自己回帰生成モデルであり、主に機械翻訳に使用されます。ここでは、人体の特性に基づいて MIDI イベントのシーケンスを正確に予測できます。

MIDI 出力:標準のオーディオ シンセサイザーを使用して、MIDI イベントを最終波形に変換します。

実験結果

研究者らは、Foley Music が他の既存のモデルよりもはるかに優れていることを確認しました。比較実験では、3 つのデータ セットを使用して Foley Music をトレーニングし、他の 3 つの GAN ベースの SampleRNN モデルと WaveNet モデルとの比較評価のために 9 つの楽器を選択しました。

そのうちデータセットはAtinPiano、MUSIC、URMPで、11以上のカテゴリーにわたる約1,000本の高品質な音楽演奏ビデオをカバーしています。楽器はオルガン、ベース、ファゴット、チェロ、ギター、ピアノ、チューバ、ウクレレ、バイオリンで、動画の長さは6秒です。定量的な評価結果は次のとおりです。

Foley Music モデルのベース楽器演奏の予測性能は最大 72% に達したのに対し、他のモデルでは最大値がわずか 8% であったことがわかります。

さらに、次の 4 つの指標からも結果が顕著です。

正確性: 生成された曲がビデオ コンテンツにどの程度関連しているか。

ノイズ: 音楽のノイズは最小限です。

同期性: 曲はビデオの内容と最も同期しています。

黄色は Foley Music モデルで、さまざまな指標で他のモデルをはるかに上回っています。最高の精度、ノイズ、同期はすべて 0.6 を超えていますが、その他の最高のものは 0.4 未満であり、これは 9 つの楽器すべてに当てはまります。

さらに、研究者らは、MIDI イベントが他のベースライン システムと比較して、音質、意味的整合、および時間同期の改善に役立つことを発見しました。

説明する

  • GAN モデル: 人間の特徴を入力として受け取り、その姿勢特徴によって生成されたスペクトルが真か偽かを識別して決定します。繰り返しトレーニングした後、スペクトルは逆フーリエ変換によってオーディオ波形に変換されます。

  • SampleRNN: 無条件のエンドツーエンドのニューラルオーディオ生成モデルです。WaveNet と比較すると、構造がシンプルで、サンプルレベルでより高速に音声を生成します。

  • WaveNet: Google Deepmind がリリースした音声生成モデルで、テキスト読み上げと音声生成に優れたパフォーマンスを発揮します。

このモデルのもう一つの利点は、そのスケーラビリティです。 MIDI 表現は完全に解釈可能かつ透過的であるため、予測された MIDI シーケンスを編集して、A\G\F のキーでさまざまなスタイルの音楽を生成できます。 波形またはスペクトログラムがオーディオ表現のモデルとして使用されている場合、この機能は使用できません。

最後に、研究者らは論文の中で、この研究により、人間のキーポイントとMIDI表現を通じて視覚信号と音楽信号の間に良好な相関関係が確立され、音楽スタイルのスケーラビリティが実現されたと述べています。これにより、ビデオと音楽のつながりに関する現在の研究にとって、より優れた研究経路が提供されます。

以下はYouTube動画です。一緒にAI音楽を体験してみましょう!

https://www.youtube.com/watch?v=bo5UzyDB80E

<<:  人工知能の時代において、「次世代」の教育はどこから始めるべきでしょうか?

>>:  ロボット犬をDIYするにはどれくらいの費用がかかりますか?価格は900ドルと安く、スタンフォード大学が開発し、コードはオープンソースです

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ヴィンセントビデオの「ダークホース」モーフスタジオが登場: 使いやすく、1080P、7秒の長さ、無料

「光るクラゲがゆっくりと海から浮上し、夜空に輝く星座になります」と、Morph Studio で見た...

...

ビジュアルMambaモデルのSwinの瞬間:中国科学院、HuaweiなどがVMambaを発表

大型模型の分野におけるトランスフォーマーの地位は揺るぎない。しかし、モデルのサイズが拡大し、処理する...

MITチームがCOVID-19の早期警告に役立つ可能性のある咳分析AIを開発

無症状感染者の存在により、COVID-19の検出と制御は非常に困難になります。 しかし、MITの研究...

ブースティング原理に基づく深層残差ニューラルネットワークのトレーニング

1. 背景1.1 ブースティングブースティング[1]は、アンサンブルモデルを訓練するための古典的な手...

海外のAIは使えない?国内お宝AIツール6選をシェア!

Chat GPTが普及して以来、さまざまなAIツールが次々と登場しました。AIの出現により、多くの...

ビッグデータは古い顧客を殺しています。消費者が権利を守るのは困難です。アルゴリズムの不公平な適用をどのように規制すべきでしょうか?

プラットフォーム経済の急速な発展に伴い、オンラインショッピング、交通、旅行宿泊、食品配達、オンライン...

米国の3つの事例を踏まえた、医療AIの正しい導入アプローチとは?

[[287239]]先ほど終了したRSNAでは、国内外のAI企業が製品と科学研究の両面で再び世界の...

ネットワーク人工知能とは何ですか?

今日、ますます多くの企業が人工知能 (AI) とネットワークの相乗効果を活用しています。ユーザーデバ...

...

オラクル、企業の言語モデルの導入と微調整を支援するクラウドベースの生成AIサービスを開始

データベース大手のオラクルは最近、Oracle Cloud Infrastructure Gener...

米上院司法委員会公聴会:AIは制御が難しく、悪意のある者が生物兵器の開発に利用する可能性がある

海外メディアTechCrunchによると、7月26日、米上院司法委員会は昨日、人工知能に関する公聴会...

「カラフルな黒をください」というたった1行のコマンドでAIが描ける

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...