ByteDance は、10,000 曲以上のピアノ曲と 1,000 時間以上の音楽を収録した世界最大のピアノ MIDI データ セットを保有しています。

ByteDance は、10,000 曲以上のピアノ曲と 1,000 時間以上の音楽を収録した世界最大のピアノ MIDI データ セットを保有しています。

最近、ByteDance は世界最大のクラシックピアノデータセットである GiantMIDI-Piano をリリースしました。これには、2,784 人の作曲家による 10,854 作品の MIDI ファイルが含まれており、総演奏時間は 1,237 時間です。このデータセットの構築を完了するために、研究者らは高精度のピアノ転写システムを開発し、オープンソース化しました。

ピアノの転写は、ピアノの録音を音楽記譜法(MIDI 形式など)に変換する作業です。人工知能の分野では、ピアノの転写は音楽分野の音声認識タスクに類似しています。しかし、コンピュータ音楽の分野では、大規模なピアノ MIDI データセットが長い間不足していました。

最近、ByteDanceは世界最大のクラシックピアノデータセットであるGiantMIDI-Pianoをリリースしました[1]。データ規模に関して言えば、データセット内のさまざまなトラックの合計継続時間は、Google の MAESTRO データセットの 14 倍です。

論文アドレス: https://arxiv.org/abs/2010.07061

プロジェクトアドレス: https://github.com/bytedance/GiantMIDI-Piano

ByteDanceの研究科学者は次のように語った。「GiantMIDI-Pianoは、すべてのクラシックピアノ作品をMIDI形式に書き起こし、世界に公開します。この動きは、音楽技術とコンピュータ音楽学の発展を促進することを目的としています。」

GiantMIDI-Piano の用途には、音楽情報の検索、自動作曲、インテリジェントな音楽作成、計算音楽学などが含まれますが、これらに限定されません。次の図は、GiantMIDI-Piano における上位 100 人の作曲家のトラック数の分布を示しています。

GiantMIDI-Pianoは、ピアノ転写技術を使用して、コンピューターを介してオーディオファイルをMIDIファイルに自動的に変換することを特徴としており、この技術を使用して大規模なMIDIデータセットの転写も行っています。

研究者らはまず、公開されている国際音楽デジタル図書館IMSLPから1万8067人の作曲家による14万3701作品のタイトル情報を入手し、YouTubeを通じて6万724本の音声を検索した。その後、研究者らは音声畳み込みニューラルネットワーク(CNN)に基づくピアノソロ検出アルゴリズムを設計し、2,786人の作曲家による10,854曲のピアノ作品を選別した。最終的に、研究者らは高解像度のピアノ転写システム(高精度のオンセットとオフセット時間の回帰によるペダル付き高解像度ピアノ転写)[2]を開発し、オープンソース化しました。このシステムはすべてのオーディオをMIDIファイルに転写し、GiantMIDI-Pianoデータベースを構築しました。

データセットの特性

GiantMIDI-Piano データセットには次の特性があります。

2,784 人の作曲家による 10,854 作品の MIDI ファイルが含まれています。

34,504,873 件のノートを含みます。

すべてのトラックは異なり、MIDI ファイルの合計時間の長さは 1,237 時間です。

音声は高精度の文字起こしシステムによって文字起こしされます。転写された MIDI ファイルには、音符の開始時間、速度、ペダルの情報が含まれます。

GiantMIDI-Piano の転写の相対エラー率は 0.094 で、Maestro ピアノ データセットの転写の F1 値は 96.72% です。

すべてのMIDIファイルは統一されたフォーマットを持っており、ファイル名の形式は「姓_名_トラック名_youtubeID.mid」となります。

作曲家の国籍と生年に関する情報が含まれています。

データセットのサイズは 193 Mb です。

CC BY 4.0に基づいて使用されます。

ピアノ楽譜

ピアノの楽譜転写は非常に難しい作業です。その理由の 1 つは、ピアノが多声楽器であることです。ピアノの鍵盤が複数同時に押される場合があり、異なる音の組み合わせは数万通りあります。この課題に対処するために、ByteDanceは高精度のピアノ楽譜転写システムをリリースしました[2]。

論文アドレス: https://arxiv.org/abs/2010.01815

プロジェクトアドレス: https://github.com/bytedance/piano_transcription

スペクトル転送システムの機能は次のとおりです。

任意の数のパート、任意の複雑さ、さらにはダブルピアノや複数のピアノのピアノオーディオを MIDI ファイルに変換できます。

従来のアルゴリズムの認識精度 32 ミリ秒の限界を打ち破り、任意の時間精度で音符検出を実現します。

各音符に対して 128 レベルのベロシティ認識が実装されています。

ピアノの音符とピアノペダルの認識も含まれます。

MAESTRO 評価データセットで F1 値 96.72% を達成し、Google システムの 94.80% を上回りました。

事前トレーニング済みモデルのコードは、Apache 2.0 プロトコルに基づくオープンソースです。

ピアノでは、鍵盤のトリガー(オンセット)、リフト(オフセット)、押下状態(フレーム)、速度(ベロシティ)がピアノの音色を決める重要な要素です。 ByteDance の研究者は、トリガーを予測し、絶対時間を上げることでピアノの楽譜を転写する方法を提案しました。トレーニング中、ネットワークのトレーニングラベルは0または1のバイナリ値ではなく、絶対時間に関連する連続値g(△)になり、任意の精度でピアノの転写を実現します。

トレーニングされたラベルは、トリガーとリフトオフのオフセットをミリ秒単位で表すことができます。

研究者たちは、ディープニューラルネットワークに基づいたスペクトル変換モデルを構築した。オーディオ波形は、まず入力特徴として log mel スペクトログラムに変換されます。畳み込み再帰型ニューラル ネットワークは、トリガー、リフト、プレスの状態と力をそれぞれ予測するための音響モデルとして使用されます。各音響モデルには、高レベルの抽象的な特徴を抽出するための 8 つの畳み込み層と、オーディオの長期的な依存関係を学習するための 2 つの双方向再帰型ニューラル ネットワーク層 (GRU) が含まれています。各音響モデルの出力は 0 から 1 までの連続値です。

モデルがトレーニングされた後、推論段階で、研究者は絶対的なトリガーとリフトの時間を計算するアルゴリズムを提案しました。これにより、任意の時間精度でノートのトリガーとリフトを予測できます。

転送結果

00:00/00:00倍速

次の図は、ラン・ランが演奏する「Dream of Love」の抜粋のオーディオ対数メル スペクトログラム、音符転写結果、ペダル転写結果を示しています。

さらに、研究者たちはヤマハ・ディスクラビアと呼ばれる自動ピアノを使用してMIDIトランスクリプションを再生し、偉大なピアニストによる歴史的な演奏を再現しました。業界関係者は、この取り組みは間違いなく刺激的であり、ByteDanceはこの技術をポストパンデミック時代のオンライン音楽ライブストリーミングやインテリジェント音楽制作に応用する可能性があると分析した。

例を参照してください:

自動ピアノが李雲迪の「鐘」を再現: https://www.bilibili.com/video/BV1JD4y1d7Pn

グールドの 1981 年のゴールドベルク変奏曲を自動ピアノで再現: https://www.bilibili.com/video/BV1M541177x4

<<:  スマート物流は進化し、AIは「独自のスキル」を発揮し続ける

>>:  自動運転車を壁に衝突させ、他人の顔を使って代金を支払う:最新のAIの抜け穴が私たちの目を覚まさせる

ブログ    
ブログ    

推薦する

ChatGPTのモバイル収益は9月に460万ドルという過去最高を記録し、成長疲れが現れ始めている。

10月10日、人工知能チャットボットChatGPTのモバイル分野での取り組みは大きな成果をもたらし...

...

AIの脳回路は人間と非常に似ている、OpenAIの最新研究は白熱した議論を引き起こしている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

450、バックトラッキング アルゴリズムとは何ですか? 一度見れば理解できますが、実際に書いてみると失敗します。

バックトラッキングアルゴリズムとは何ですか? Baidu 百科事典では、バックトラッキング アルゴリ...

自動運転HMI設計のポイントは何ですか?

ヒューマンマシンインターフェースがなければ、ドライバーは自動運転車 (AV) と通信できません。さら...

...

...

パーソナライズされた推奨の CTR 推定にディープラーニングを使用する理由は何ですか?

ディープラーニングはおそらく、過去 2 年間でコンピューター コミュニティで最もホットな言葉です。エ...

エッジAI + コンピュータービデオが木製ラック業界に新たな風を吹き込む

北京、12月30日:インテリジェントな要素がエッジに向かって動いています。データ収集速度が向上するに...

インドの天才数学者ラマヌジャンが残した3000以上の魔法の公式をAIに「証明」させる!

最近、ネイチャー誌に、新しい数式を生成できる AI アルゴリズム プロジェクトを研究者が構築したプロ...

...

生産AI駆動型ホスト自動化テスト

翻訳者 | 陳俊レビュー | Chonglou業界では、従来のメインフレーム アプリケーションのコー...

今後10年間の主要な投資の方向性を予測して、あなたは未来に向けて準備ができていますか?

古代から今日のモバイルインターネット時代に至るまで、人類の誕生以来、世界に影響を与えてきたあらゆる破...

なぜ人工知能が将来主流になるのか、これを読めば分かる

人工知能と自動化は将来のトレンドではないでしょうか?機械に人体の複雑な筋肉や動作を認識させる方法を考...