ラブライブ！AI論文発表：生成モデルが楽譜を自動生成

有名アイドルプロジェクト「ラブライブ！」がAI論文を発表しました。そうです。

最近、プレプリント論文プラットフォームarXivに掲載された論文が注目を集めている。著者はゲーム開発会社KLabと九州大学出身者だ。彼らはアイドルソングの音楽を自動的に作曲するモデルを提案した。さらに重要なことに、著者らは、この方法は実際に長い間使用されてきたと述べた。

ディープラーニング技術により、AI アルゴリズムは画像分類や音声認識などのタスクで優れたパフォーマンスを実現しています。しかし、機械学習では、音声、動画、テキストコンテンツやそれらの生成メカニズムの理解など、複雑で非構造化データを理解する上で大きな課題に直面しています。物理学者リチャード・ファインマンはかつてこう言いました。「自分で作ることができなければ、本当に理解しているとは言えない。」

技術の発展に伴い、深層生成モデルは学界や産業界で広く使用されるようになりました。今日のゲーム開発プロセスでは、生成モデルが、グラフィック、サウンド、キャラクターの動き、会話、シーン、レベルデザインなど、さまざまなコンテンツの構築に役立っています。

KLabなどが提出した論文では、独自のリズムアクションゲーム生成モデルが紹介されました。 KLab株式会社はスマートフォンゲーム開発会社です。同社のオンラインリズムアクションゲームには、「ラブライブ！」などがある。「カレッジアイドルシーズン：シャイニングオールスターズ」（略してLLAS）は、6つの言語で世界的にリリースされ、数千万人のユーザーを獲得しています。同様の影響力を持つ類似のゲームがすでに多数存在するため、この仕事は多数のプレイヤーにとって非常に関連性が高いものとなります。

LLAS では、開発者が直面する課題は、さまざまな曲の楽譜を生成し、プレイヤーにさまざまなタイミングでボタンをクリックまたは引くように促すことであり、これはリズム音楽ゲームに特有の課題です。あるゲームでは、浮かんでいるボタンは音符と呼ばれ、バックグラウンドで流れている曲のリズムに合わせて、楽譜に似た空間パターンを形成します。曲には初心者、中級者、上級者、エキスパートとチャレンジまで、難易度に応じてさまざまなモードがあります。

他の音楽ゲームと比較すると、LLAS は反応速度をテストしませんが、その仕組みははるかに複雑です。すべてのボタンを正確に押すことを前提として、体力、クリティカルストライク、スコアにそれぞれ対応するバフ、デバフ、3 つの属性があります。高得点を獲得したい場合は、歌いながらチームを切り替え続ける必要があります。

ラブライブに感謝！ 4つのグループといくつかの小グループ、そして個々のキャラクターソングを含む12年越しのプロジェクトです。多くの曲がゲーム中に登場し、それに対応する楽譜のデザインは非常に難しい作業となりました。

検索するだけで何千もの曲が見つかります。

ゲーム開発者らは、AI を活用した半自動方式でアプローチしていると述べています。まず AI が楽譜を生成し、それを KLab アーティストが微調整します。もう 1 つの方法は、AI が低難易度の楽譜を生成し、ゲームデザイナーがこれに基づいて高難易度の楽譜をデザインすることです。

KLab 社は、GenéLive! モデルを採用することで業務コストを半減させることに成功し、このモデルは同社の日常業務に導入されており、今後も継続して適用していく予定であると述べています。

楽譜生成コストの削減は、日常業務のボトルネックとなるため、オンライン音楽ゲーム開発者にとって重要な課題です。 KLabが提案する手法では、音声のみで直接楽譜を生成することが可能です。

研究の過程で、開発者は最初にダンスダンスコンボリューション（DDC）を提案しました。これは、人間レベルが高く、難易度の高いゲームモードで音楽スコアを生成しますが、低難易度では効果がありませんでした。その後、研究者らはデータセットとマルチスケールのコンボスタックアーキテクチャを改良することで、楽譜の四分音符と八分音符およびキュービートの位置との間の時間依存性をうまく捉えることができ、音楽ゲームでキーを配置するのに適したタイミングがわかりました。

DDC は、オンセット (ノートが生成されるタイミング) と sym (タップやスライドなどのノートの種類を決定する) の 2 つのサブモデルで構成されます。

現在使用されているAIモデルは、あらゆる難易度の楽譜で良好な結果を達成しており、研究者らは、この技術を他の分野に拡大する可能性にも期待を寄せています。

論文リンク: https://arxiv.org/abs/2202.12823

KLab は、深層生成モデルを適用して楽譜を合成し、音楽制作プロセスを改善して、ビジネスコストを半分に削減します。この研究では、リズム運動に特化した新しいマルチスケールモデル「GenéLive!」をビートなどの助けを借りて使用することで課題を克服する方法を示し、KLabの制作データセットとオープンデータセットを使用して評価します。

方法

これまで、KLab のスコア生成ワークフローは自動化を考慮せずに開発されており、明示的なルールや数学的な最適化の目標はほとんどありませんでした。したがって、この研究では教師あり機械学習を使用することを選択しました。 2019年末までに、KLabは数百曲のオーディオシーケンスとそれに対応する人工的に生成されたスコアをリリースしました。

このプロジェクトは、一方では迅速に実行して支援する必要がありましたが、他方では、プロジェクトの目標は挑戦的で、SOTA ディープ生成モデルの改善を目指していました。通常、新しいニューラルネットワークアーキテクチャの研究には多くの試行錯誤が必要であり、そのプロセスには 6 か月以上かかることがあります。

この時間問題を解決するために、この研究ではモデル開発チームとモデルサービスチームを編成し、アーティストチームと連絡を取り合ってフィードバックを得て、それをモデル開発とサービスに反映し、更新されたモデルをできるだけ早く提供することで、一貫性を保ちました。

GenéLive! の基本モデルは、畳み込みニューラルネットワーク (CNN) 層と長短期記憶 (LSTM) ネットワーク (LSTM) 層で構成されています。周波数領域の信号の場合、著者らは CNN レイヤーを使用して周波数特性をキャプチャし、時間領域の場合は LSTM レイヤーを使用してタスクを完了します。

GenéLive! のモデルアーキテクチャ。

ここで、畳み込みスタック (conv-stack) の主なタスクは、CNN レイヤーを使用してメルスペクトログラムから特徴を抽出することです。 conv-stack は、バッチ正規化を備えた標準 CNN レイヤー、最大プーリングレイヤー、およびドロップアウトレイヤーで構成され、アクティベーション関数は ReLU です。最後に、出力を標準化するために、ここでは完全に接続された層が使用されます。

時間領域では、BiLSTM が使用され、前の conv-stack の出力が入力として提供されます。異なる難易度モードを実装するために、著者は難易度をスカラー値（初心者の場合は 10、中級者の場合は 20 など）としてエンコードし、この値を新しい特徴として convstack の出力に追加します。

Conv-stack アーキテクチャ。

トレーニングデータとしては、GenéLive! では、初期の LLAS 楽曲、うたの☆プリンスさまっ♪の楽曲、音楽ゲームエンジン「Stepmania」の公開音楽やスコアなど数百曲を使用しました。

モデル開発

このモデルはKLabと九州大学の共同で作成されました。ソースコード、データセット、モデル、実験などを共有するには、2 つのチーム間で Web ベースのコラボレーションプラットフォームが必要です。具体的には、本研究でモデル開発に使用したシステムアーキテクチャを下図に示します。

モデルサービング

アーティストがオンデマンドでスコア生成プログラムを使用できるようにするには、AI エンジニアの助けを借りずにアーティストが自分で簡単に使用できる必要があります。また、このプログラムにはハイエンドの GPU が必要なので、アーティストのローカルコンピューターにインストールするのは適切なオプションではありません。モデルサービスシステムのアーキテクチャを下図に示します。

実験結果

この方法における各コンポーネントのパフォーマンスを測定するために、研究者らは「ラブライブ！オールスターズ」データセットでアブレーション実験を実施しました。

以下の表 3 の結果は、GenéLive! モデルが以前の SOTA モデル DDC よりも優れていることを示しています。

ビートガイダンスの効果を評価するために、アブレーション実験の結果を以下の図 9 に示します。

変更されていない conv-stack を使用してトレーニングされたモデルと現在の GenéLive! モデルの結果の違いを次の図に示します。

このトレーニング方法の利点を確認するために、GenéLive! モデルはすべての難易度モードで一度にトレーニングされました。この研究では、これを各難易度モードのみをトレーニングした結果と比較し、その結果を下の図に示します。

ラブライブ！の活動は、アニメ、ゲーム、現実のアイドルグループまで多岐にわたります。音楽ゲーム「ラブライブ！スクールアイドルフェスティバル」は2013年より運営されており、2019年9月時点で国内ユーザー数は2,500万人を超えています。新世代ゲーム「ラブライブ！スクールアイドルフェスティバルオールスターズ」は現在、全世界で数千万人のユーザーを抱えています。

GenéLive! の研究により、AI 分野でも音楽ゲームが人気になるかもしれません。

<<: ニュースローン賞受賞者宋樹蘭: 視覚の観点からロボットの「目」を構築する

>>: 水に溶けるロボットを見たことがありますか？ゼラチンと砂糖の3Dプリント