ByteDance は、10,000 曲以上のピアノ曲と 1,000 時間以上の音楽を収録した世界最大のピアノ MIDI データセットを保有しています。

最近、ByteDance は世界最大のクラシックピアノデータセットである GiantMIDI-Piano をリリースしました。これには、2,784 人の作曲家による 10,854 作品の MIDI ファイルが含まれており、総演奏時間は 1,237 時間です。このデータセットの構築を完了するために、研究者らは高精度のピアノ転写システムを開発し、オープンソース化しました。

ピアノの転写は、ピアノの録音を音楽記譜法（MIDI 形式など）に変換する作業です。人工知能の分野では、ピアノの転写は音楽分野の音声認識タスクに類似しています。しかし、コンピュータ音楽の分野では、大規模なピアノ MIDI データセットが長い間不足していました。

最近、ByteDanceは世界最大のクラシックピアノデータセットであるGiantMIDI-Pianoをリリースしました[1]。データ規模に関して言えば、データセット内のさまざまなトラックの合計継続時間は、Google の MAESTRO データセットの 14 倍です。

論文アドレス: https://arxiv.org/abs/2010.07061

プロジェクトアドレス: https://github.com/bytedance/GiantMIDI-Piano

ByteDanceの研究科学者は次のように語った。「GiantMIDI-Pianoは、すべてのクラシックピアノ作品をMIDI形式に書き起こし、世界に公開します。この動きは、音楽技術とコンピュータ音楽学の発展を促進することを目的としています。」

GiantMIDI-Piano の用途には、音楽情報の検索、自動作曲、インテリジェントな音楽作成、計算音楽学などが含まれますが、これらに限定されません。次の図は、GiantMIDI-Piano における上位 100 人の作曲家のトラック数の分布を示しています。

GiantMIDI-Pianoは、ピアノ転写技術を使用して、コンピューターを介してオーディオファイルをMIDIファイルに自動的に変換することを特徴としており、この技術を使用して大規模なMIDIデータセットの転写も行っています。

研究者らはまず、公開されている国際音楽デジタル図書館IMSLPから1万8067人の作曲家による14万3701作品のタイトル情報を入手し、YouTubeを通じて6万724本の音声を検索した。その後、研究者らは音声畳み込みニューラルネットワーク（CNN）に基づくピアノソロ検出アルゴリズムを設計し、2,786人の作曲家による10,854曲のピアノ作品を選別した。最終的に、研究者らは高解像度のピアノ転写システム（高精度のオンセットとオフセット時間の回帰によるペダル付き高解像度ピアノ転写）[2]を開発し、オープンソース化しました。このシステムはすべてのオーディオをMIDIファイルに転写し、GiantMIDI-Pianoデータベースを構築しました。

データセットの特性

GiantMIDI-Piano データセットには次の特性があります。

2,784 人の作曲家による 10,854 作品の MIDI ファイルが含まれています。

34,504,873 件のノートを含みます。

すべてのトラックは異なり、MIDI ファイルの合計時間の長さは 1,237 時間です。

音声は高精度の文字起こしシステムによって文字起こしされます。転写された MIDI ファイルには、音符の開始時間、速度、ペダルの情報が含まれます。

GiantMIDI-Piano の転写の相対エラー率は 0.094 で、Maestro ピアノデータセットの転写の F1 値は 96.72% です。

すべてのMIDIファイルは統一されたフォーマットを持っており、ファイル名の形式は「姓_名_トラック名_youtubeID.mid」となります。

作曲家の国籍と生年に関する情報が含まれています。

データセットのサイズは 193 Mb です。

CC BY 4.0に基づいて使用されます。

ピアノ楽譜

ピアノの楽譜転写は非常に難しい作業です。その理由の 1 つは、ピアノが多声楽器であることです。ピアノの鍵盤が複数同時に押される場合があり、異なる音の組み合わせは数万通りあります。この課題に対処するために、ByteDanceは高精度のピアノ楽譜転写システムをリリースしました[2]。

論文アドレス: https://arxiv.org/abs/2010.01815

プロジェクトアドレス: https://github.com/bytedance/piano_transcription

スペクトル転送システムの機能は次のとおりです。

任意の数のパート、任意の複雑さ、さらにはダブルピアノや複数のピアノのピアノオーディオを MIDI ファイルに変換できます。

従来のアルゴリズムの認識精度 32 ミリ秒の限界を打ち破り、任意の時間精度で音符検出を実現します。

各音符に対して 128 レベルのベロシティ認識が実装されています。

ピアノの音符とピアノペダルの認識も含まれます。

MAESTRO 評価データセットで F1 値 96.72% を達成し、Google システムの 94.80% を上回りました。

事前トレーニング済みモデルのコードは、Apache 2.0 プロトコルに基づくオープンソースです。

ピアノでは、鍵盤のトリガー（オンセット）、リフト（オフセット）、押下状態（フレーム）、速度（ベロシティ）がピアノの音色を決める重要な要素です。 ByteDance の研究者は、トリガーを予測し、絶対時間を上げることでピアノの楽譜を転写する方法を提案しました。トレーニング中、ネットワークのトレーニングラベルは0または1のバイナリ値ではなく、絶対時間に関連する連続値g（△）になり、任意の精度でピアノの転写を実現します。

トレーニングされたラベルは、トリガーとリフトオフのオフセットをミリ秒単位で表すことができます。

研究者たちは、ディープニューラルネットワークに基づいたスペクトル変換モデルを構築した。オーディオ波形は、まず入力特徴として log mel スペクトログラムに変換されます。畳み込み再帰型ニューラルネットワークは、トリガー、リフト、プレスの状態と力をそれぞれ予測するための音響モデルとして使用されます。各音響モデルには、高レベルの抽象的な特徴を抽出するための 8 つの畳み込み層と、オーディオの長期的な依存関係を学習するための 2 つの双方向再帰型ニューラルネットワーク層 (GRU) が含まれています。各音響モデルの出力は 0 から 1 までの連続値です。

モデルがトレーニングされた後、推論段階で、研究者は絶対的なトリガーとリフトの時間を計算するアルゴリズムを提案しました。これにより、任意の時間精度でノートのトリガーとリフトを予測できます。

転送結果

00:00/00:00倍速

次の図は、ラン・ランが演奏する「Dream of Love」の抜粋のオーディオ対数メルスペクトログラム、音符転写結果、ペダル転写結果を示しています。

さらに、研究者たちはヤマハ・ディスクラビアと呼ばれる自動ピアノを使用してMIDIトランスクリプションを再生し、偉大なピアニストによる歴史的な演奏を再現しました。業界関係者は、この取り組みは間違いなく刺激的であり、ByteDanceはこの技術をポストパンデミック時代のオンライン音楽ライブストリーミングやインテリジェント音楽制作に応用する可能性があると分析した。

例を参照してください:

自動ピアノが李雲迪の「鐘」を再現: https://www.bilibili.com/video/BV1JD4y1d7Pn

グールドの 1981 年のゴールドベルク変奏曲を自動ピアノで再現: https://www.bilibili.com/video/BV1M541177x4

<<: スマート物流は進化し、AIは「独自のスキル」を発揮し続ける

>>: 自動運転車を壁に衝突させ、他人の顔を使って代金を支払う：最新のAIの抜け穴が私たちの目を覚まさせる