Google がオールラウンドな音楽転写 AI を発表: 曲を一度聴くだけでピアノとバイオリンの楽譜がすべて手に入る

Google がオールラウンドな音楽転写 AI を発表: 曲を一度聴くだけでピアノとバイオリンの楽譜がすべて手に入る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

一度曲を聴けば楽譜がわかってすぐに演奏できるほか、ピアノ、バイオリン、ギターなど「18種類の楽器」をマスターすることもできます。

これは人間の音楽マスターではなく、 Googleが発表した「マルチタスク・マルチトラック」の音符転送モデルMT3です

まず、マルチタスクとマルチオーディオトラックとは何かを説明する必要があります。

通常、1 つの楽曲は複数の楽器で演奏され、各楽曲はトラックであり、マルチタスクは異なるトラックのスコアを同時に復元することです。

Google は ICLR 2022 に論文を提出しました。

マルチトラックスコアを復元する

自動音楽転写 (AMT) は、自動音声認識 (ASR) よりもはるかに困難です。自動音声認識では、詳細なピッチとタイミング情報を保持しながら、複数の楽器を同時に転写する必要があるためです。

マルチトラックの自動音楽転写データセットはさらに「低リソース」です。既存のオープンソースの音楽転写データセットには、通常、1 ~ 数百時間のオーディオしか含まれておらず、数千時間または数万時間のオーディオを簡単に含めることができる音声データセットの市場と比較すると、非常に小さいです。

これまでの音楽転写は、主に各タスクのさまざまな楽器に合わせて調整されたタスク固有のアーキテクチャに重点を置いていました。

したがって、低リソースの NLP タスクからの転移学習に着想を得て、著者らは、一般的な Transformer モデルがマルチタスク AMT を実行し、低リソースの機器のパフォーマンスを大幅に向上できることを実証しています。

著者らは、単一の共通 Transformer アーキテクチャである T5 と、約 6,000 万個のパラメータを含む T5「小型」モデルを使用しています。

このモデルは、エンコーダーとデコーダーで一連の標準的な Transformer 自己注意「ブロック」を使用します。出力トークンのシーケンスを生成するために、モデルは貪欲な自己回帰デコードを使用します。つまり、入力シーケンスを受け取り、最も高い確率で予測される次の出力トークンをシーケンスに追加し、最後までプロセスを繰り返します。

MT3 はメルスペクトログラムを入力として使用します。出力については、著者らは MIDI 仕様にヒントを得た「MIDI ライク」と呼ばれるトークン語彙を構築しました。

生成されたスコアは、オープンソース ソフトウェア FluidSynth を使用してオーディオにレンダリングされました。

さらに、さまざまな音楽データセットの不均衡や異なるアーキテクチャの問題を解決する必要があります。

著者らが定義したユニバーサル出力トークンを使用すると、多言語翻訳モデルを複数の言語で同時にトレーニングできるのと同様に、複数のデータセットの混合でモデルを同時にトレーニングすることもできます。

このアプローチは、モデルの設計とトレーニングを簡素化するだけでなく、モデルで使用できるトレーニング データの量と多様性も増加させます。

実績

MT3 は、すべての指標とすべてのデータ セットにわたって一貫してベースラインを上回ります。

トレーニング中にデータセットを混合すると、特に GuitarSet、MusicNet、URMP などの「リソースの少ない」データセットの場合、単一のデータセットのトレーニングよりもパフォーマンスが大幅に向上します。

最近、Google チームも MT3 のソースコードを公開し、Hugging Face で試用デモをリリースしました。

ただし、オーディオの変換には GPU リソースが必要なので、Hugging Face では Colab 上で Jupyter Notebook を実行することをお勧めします。

論文の宛先:
https://arxiv.org/abs/2111.03017

ソースコード:
https://github.com/magenta/mt3

デモアドレス:
https://huggingface.co/spaces/akhaliq/MT3

<<:  チップ設計の極めて高いハードルがAIによって「打ち破られる」

>>:  中国の 700 万人のプログラマーが足りない場合はどうすればいいでしょうか?北京大学のソフトウェア自動化の専門家、謝涛氏に聞いた。

ブログ    

推薦する

パラメータのわずか4%、GPT-3のパフォーマンスに匹敵:開発者がDeepMindのRETROを説明

BERT から GPT-2、そして GPT-3 へと、大規模モデルの規模は拡大し、そのパフォーマン...

AIがすぐに作家に取って代わることはないだろうが、その未来はあなたが思っているよりも近いかもしれない

人工知能は、多くの企業にとってコンテンツマーケティングと管理の効率化に大きな役割を果たしています。 ...

...

GoogleのAutoML人工知能システムは、人間よりも優れた機械学習コードを作成できるようになりました

Google の AutoML システムは最近、研究者自身よりもさらに効率的な一連の機械学習コードを...

...

ロボットの黄金時代が来るのか?協働ロボットが主流になりつつある

海外メディアの報道によると、2018年のホリデーショッピングシーズンは、オンライン売上高が1,260...

機械学習において、トレーニングおよび検証メトリック グラフから何がわかるでしょうか?

この記事では、トレーニングと検証の考えられる状況をまとめ、これらのチャートがどのような情報を提供でき...

金融業界のデータ管理はどこへ向かうのでしょうか?

近年、インターネット金融の波は伝統的な金融業界に課題をもたらしています。同時に、伝統的な金融企業の情...

チップ不足は人工知能にどれほどの損害を与えるでしょうか?

現在の半導体サプライチェーンのボトルネックの根本的な原因は何年も前から潜んでいたが、COVID-19...

NVIDIA、端末デバイスへのディープラーニングの導入を加速する高性能Jetson TX2を発表

人工知能と機械学習はユーザーからますます注目を集めており、AIの応用は徐々に世間の注目を集め始めてい...

概要: AI はサイバーセキュリティをどのように変えるのでしょうか?

データセキュリティはこれまで以上に重要になっています。最近のノートン社のレポートによると、一般的なデ...

2027年までに、世界のAI医療画像ソリューション市場は47億2,060万米ドルに達すると予測されています。

3月26日、エマージング・リサーチが発表した最新レポートによると、世界の人工知能医療画像ソリューシ...

賢明な企業はヘルスケアにおける認知AIの成功から学ぶことができる

認知技術は世界最大の課題を解決するために使用されています。この記事では、企業が認知 AI をどのよう...

海運業界は人工知能を活用して海賊行為と戦うことができる

今日、海賊行為は国際法、世界貿易、そして船員の安全と安心に対する複雑な課題であり続けています。電子機...