この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 楽器を演奏できる人は、人生において周囲に光輪を持っているようなものです。 しかし、楽器を習うのは本当に難しく、始めたものの途中でやめてしまうという悪循環に陥ってしまう人も多いのです。 しかし、楽器が演奏できないと、本当に良い音楽を演奏できないのでしょうか? 最近、マサチューセッツ工科大学(MIT)とMIT-IBMワトソンAIラボが共同で、演奏ジェスチャーに基づいて音楽の元のサウンドを完璧に復元できるAIモデル「Foley Music」を開発しました。 また、楽器の違いも区別しません。バイオリン、ピアノ、ウクレレ、ギター、すべて許容されます。 楽器を手に取れば、それはプロのコンサートです!異なる音色がお好みの場合は、音楽スタイルを A、F、または G に編集することもできます。 「Foley Music: ビデオから音楽を生成する方法を学ぶ」というタイトルのこの技術論文は、ECCV 2020 に掲載されました。 次に、AIモデルがどのように音楽を復元するかを見てみましょう。 複数の楽器を演奏できるフォーリーミュージックダンスのための音楽を作曲するには、身体の動きとダンスのスタイルを理解する必要があるのと同様に、楽器奏者のための音楽を作曲するには、彼らの身振り、動き、使用する楽器を理解する必要があります。 演奏ビデオを与えると、AI は対象オブジェクトのボディ キーポイント、演奏されている楽器やサウンドを自動的にロックします。 本文の要点:AI システムの視覚認識モデルによって完成されます。体の姿勢とジェスチャーという 2 つの指標を通じてフィードバックを提供します。一般的に、体は 25 個の 2D ポイントを抽出でき、指は 21 個の 2D ポイントを持ち上げることができます。 楽器音の抽出:オーディオ表現モデルが使用されます。このモジュールでは、研究者は楽器デジタルインターフェース (MIDI) のオーディオ表現形式を提案しました。これは、Foley Music を他のモデルと区別する重要な点です。 研究者によると、6秒間のパフォーマンスビデオでは通常約500個のMIDIイベントが生成され、これを標準的な音楽シンセサイザーに簡単にインポートして音楽波形を生成できるという。 情報の抽出と処理が完了すると、ビジュアルオーディオモデルはすべての情報を統合して変換し、最終的な一致する音楽を生成します。 まず、その完全なアーキテクチャ図を見てみましょう。これは主に、ビジュアル エンコーディング、MIDI デコード、MIDI 波形出力の 3 つの部分で構成されています。 ビジュアル エンコーディング:ビジュアル情報をエンコードし、コンバーターの MIDI デコーダーに渡します。ビデオフレームから主要な座標点を抽出し、GCN (Graph-CNN) を使用して、時間の経過に伴って変化する人体のダイナミクスの潜在的な表現をキャプチャします。 MIDI デコーダー:グラフ トランスフォーマーを使用して、人間の姿勢の特徴と MIDI イベント間の相関関係をモデル化します。トランスフォーマーは、エンコーダーとデコーダーをベースとした自己回帰生成モデルであり、主に機械翻訳に使用されます。ここでは、人体の特性に基づいて MIDI イベントのシーケンスを正確に予測できます。 MIDI 出力:標準のオーディオ シンセサイザーを使用して、MIDI イベントを最終波形に変換します。 実験結果研究者らは、Foley Music が他の既存のモデルよりもはるかに優れていることを確認しました。比較実験では、3 つのデータ セットを使用して Foley Music をトレーニングし、他の 3 つの GAN ベースの SampleRNN モデルと WaveNet モデルとの比較評価のために 9 つの楽器を選択しました。 そのうちデータセットはAtinPiano、MUSIC、URMPで、11以上のカテゴリーにわたる約1,000本の高品質な音楽演奏ビデオをカバーしています。楽器はオルガン、ベース、ファゴット、チェロ、ギター、ピアノ、チューバ、ウクレレ、バイオリンで、動画の長さは6秒です。定量的な評価結果は次のとおりです。 Foley Music モデルのベース楽器演奏の予測性能は最大 72% に達したのに対し、他のモデルでは最大値がわずか 8% であったことがわかります。 さらに、次の 4 つの指標からも結果が顕著です。
黄色は Foley Music モデルで、さまざまな指標で他のモデルをはるかに上回っています。最高の精度、ノイズ、同期はすべて 0.6 を超えていますが、その他の最高のものは 0.4 未満であり、これは 9 つの楽器すべてに当てはまります。 さらに、研究者らは、MIDI イベントが他のベースライン システムと比較して、音質、意味的整合、および時間同期の改善に役立つことを発見しました。 説明する
このモデルのもう一つの利点は、そのスケーラビリティです。 MIDI 表現は完全に解釈可能かつ透過的であるため、予測された MIDI シーケンスを編集して、A\G\F のキーでさまざまなスタイルの音楽を生成できます。 波形またはスペクトログラムがオーディオ表現のモデルとして使用されている場合、この機能は使用できません。 最後に、研究者らは論文の中で、この研究により、人間のキーポイントとMIDI表現を通じて視覚信号と音楽信号の間に良好な相関関係が確立され、音楽スタイルのスケーラビリティが実現されたと述べています。これにより、ビデオと音楽のつながりに関する現在の研究にとって、より優れた研究経路が提供されます。 以下はYouTube動画です。一緒にAI音楽を体験してみましょう! https://www.youtube.com/watch?v=bo5UzyDB80E |
<<: 人工知能の時代において、「次世代」の教育はどこから始めるべきでしょうか?
>>: ロボット犬をDIYするにはどれくらいの費用がかかりますか?価格は900ドルと安く、スタンフォード大学が開発し、コードはオープンソースです
「光るクラゲがゆっくりと海から浮上し、夜空に輝く星座になります」と、Morph Studio で見た...
大型模型の分野におけるトランスフォーマーの地位は揺るぎない。しかし、モデルのサイズが拡大し、処理する...
無症状感染者の存在により、COVID-19の検出と制御は非常に困難になります。 しかし、MITの研究...
1. 背景1.1 ブースティングブースティング[1]は、アンサンブルモデルを訓練するための古典的な手...
Chat GPTが普及して以来、さまざまなAIツールが次々と登場しました。AIの出現により、多くの...
プラットフォーム経済の急速な発展に伴い、オンラインショッピング、交通、旅行宿泊、食品配達、オンライン...
[[287239]]先ほど終了したRSNAでは、国内外のAI企業が製品と科学研究の両面で再び世界の...
今日、ますます多くの企業が人工知能 (AI) とネットワークの相乗効果を活用しています。ユーザーデバ...
オープンで、非常にダイナミックで進化する環境で学習する能力は、生物学的知能の中核となる要素の 1 つ...
データベース大手のオラクルは最近、Oracle Cloud Infrastructure Gener...
海外メディアTechCrunchによると、7月26日、米上院司法委員会は昨日、人工知能に関する公聴会...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...