このAIはレディー・ガガ風にベートーベンの音楽を演奏することができ、ネットユーザーは楽しんで遊んでいる。

このAIはレディー・ガガ風にベートーベンの音楽を演奏することができ、ネットユーザーは楽しんで遊んでいる。

編集者注: OpenAI は数日前に突然 Twitch でライブ放送を開始しました。これまで、OpenAI によるすべての DOTA2 ライブ放送はここで行われていましたが、今回のコンテンツはビデオ ゲームではなく、ライブ AI によって作曲された曲になりました。 OpenAIのCTO、グレッグ・ブロックマン氏は冗談めかしてこう語った。「6か月前には、ライブ放送チャンネルのカテゴリをDOTA2から音楽とパフォーマンスに変更することになるとは想像もできなかった。」

ライブ放送の主役は、OpenAIが新たに開発した作曲AI「MuseNet」で、さまざまなスタイルと最大4分間の長さの音楽を作成できます。スタイルは、さまざまな作曲家(バッハ、ベートーベン、オスカー・ピーターソン、フランク・シナトラ、ボン・ジョヴィ)に応じて変更でき、さまざまなスタイルの変更(ジャズ、アルベニス、映画のサウンドトラック、カントリー、インドのボリウッド、ディズニー)が可能で、音楽には10種類の楽器を使用できます。 「MuseNet」は、OpenAIが以前に開発したテキスト生成モデルGPT-2に似た大規模Transformerモデルを採用しており、長シーケンスモデリング機能を強化するために、Leifeng.com AI Technology Reviewで最近導入されたスパースアテンション技術も採用している。 OpenAI は、GPT-2 を使用して人間の標準に近い短いテキストを生成した後、長いシーケンスのモデリングの専門家になりました。

結局のところ、音楽を学ぶことは難しい作業です。楽器が異なれば音色も異なり、音楽のスタイルが異なればそれぞれに微細構造が異なります。そのため、OpenAI のアプローチは、元のオーディオ波形を学習するのではなく、モデルに MIDI (音符、制御パラメータなどで構成されるデジタルオーディオ信号で、MIDI プレーヤーで再生可能) を学習させて予測させるというものです。同時に、OpenAI はモデルがデータパラメータを簡素化できるように、作曲家や楽器に対応するトークンも設計しました。

スパース トランスフォーマーの再計算と最適化されたコアの助けを借りて、MuseNet は 24 個のアテンション ヘッドを備えた 72 層のネットワークとして設計され、4096 要素の長さのコンテンツに対して完全なアテンション操作を実行できます。十分に長いシーケンスを処理できるため、曲の長期的な構造を記憶し、段落の繰り返しと変化を完了することができます。

モデルが音楽のメインコンテンツの構造をより適切に制御できるようにするために、OpenAI はモデル用にさまざまな埋め込みを設計しました。通常の位置埋め込みに加えて、各サンプルで経過した時間を追跡する埋め込みをモデルに学習させます。こうすることで、同時に鳴るすべての音符に同じ時間の埋め込みが行われます。また、コード内の各音符に埋め込みを追加しました (これは相対的な注意に似ており、モデルが 4 番目の音符を生成する必要がある場合、3 番目の音符を参照として提供し、モデルの学習を容易にします)。最後に、研究者たちは 2 つの異なる構造的埋め込みを追加しました。これらを組み合わせることで、ある楽曲がより大きな楽曲のどこに当てはまるかをモデルに伝えます。最初の埋め込みでは、大きな楽曲を 128 の部分に分割し、2 番目の埋め込みでは 127 から 0 までカウントダウンして、終わりまでの距離を示します。

モデルの効果は驚くべきものでした。当日のTwitchライブ放送で披露されたさまざまなスタイルの曲が非常に認識しやすく、自然なサウンドだっただけでなく、OpenAIが紹介ブログで示した混合生成結果(有名な曲の1小節を先頭として、モデルに他のスタイルを続けさせると、モデルは4つの結果を生成します)や、好奇心旺盛なネットユーザーがOpenAIが提供する実験ツールを使用して生成した音楽は、誰もが非常に感銘を受けました。 MuseNet の公式紹介ページにアクセスして、マッシュアップ ツールを試し、生成された音楽を聴くことをお勧めします。


レディー・ガガにインスパイアされたベートーヴェンの『エリーゼのために』の続編。OpenAI の技術ブログより


アデルの「Some One Like You」のショパン風続編、OpenAI Technology Blogより

[[264179]]
4月25日にTwtichで行われたこの曲のライブビデオ。OpenAIのスタッフはこれまでこの曲を聴いたことがなかった。OpenAIの技術ブログより

OpenAI は、埋め込まれた学習結果に基づいて、さまざまな作曲家間の類似関係グラフも作成しました。これも私たちの日常の認知と非常に一致しています。

OpenAI の研究者の見解では、音楽生成タスクの難しさはテキストと画像の中間であり、テキストと同様に柔軟なシーケンス構造を持っています (たとえば、画像では最初の N 要素を固定的に参照できますが、テキストと音楽ではこの数の大きさは固定されていません)。彼らはトレーニング データセットを収集し、さまざまなトレーニング手法を試しました。

この研究は本当に興味深く、生き生きしています。OpenAI はまた、誰もが活動に参加し、議論し、フィードバックを与え、この研究の次の目標の選択に協力してくれることを期待しています。参加期間は5月12日までですので、openai.com/blog/musenet/ にアクセスして、ぜひ遊んで聴いてみてください!

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

<<:  中国でドローン配送用の商用「操縦免許」が発行されるまでにどれくらいの時間がかかるのでしょうか?

>>:  呉俊:人工知能は今後20年間で大きな発展を遂げないかもしれません。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

人工知能(AI)の今後の動向

[[417224]] 21 世紀以降、人工知能は世界中で新たな科学技術革命と産業変革を主導し、人々の...

...

GPT-5は来年登場?内部告発者は、マルチモーダルゴビはGPT-5であり、自己認識能力を示していることを明らかにした。

OpenAI 初の開発者会議は AI の饗宴です。 GPT-4 Turbo、大幅な値下げ、開発者向...

WPS AIは正式に公開され、WPSスマートドキュメントに初めて適用されました。

9月5日、Kingsoft OfficeはWPS AIを正式に公開したと発表しました。AI機能はま...

人工知能が私たちの生活に及ぼす8つの影響

[[226485]]マイクロソフト アジア社長のラルフ ハウプター氏によると、AI が概念から現実の...

米国でレベル4自動運転システムの一部がリコールされた。Pony.aiはどんなミスを犯したのか?

自動運転車が交通事故に巻き込まれるのは今回が初めてではない。しかし、今回のPony.aiによるL4...

...

仮想現実プログラムを使用してテストされた人工視覚技術は、視覚障害者の自立を支援する

科学技術が発展するにつれ、人類への科学技術の貢献が徐々に明らかになってきています。現在、世界中の科学...

...

テクノロジーは未来を変えます。将来、配達員も失業するでしょう。配達員のいない郵便局だけが残るでしょう。

信じますか?近い将来に配達員が失業するなどとは信じられない人もいるかもしれないが、これは紛れもない事...

人工知能は医師に完全に取って代わることはできない

今後数年間で、初めて医療用人工知能 (AI) システムとやり取りすることになるかもしれません。自動運...

...

Meta と Microsoft が、開発者が生成型 AI アプリケーションを構築できるようにオープンソース モデル Llama 2 をリリース

7月19日、MetaとMicrosoftは協力して、研究や商用目的で無料で使用できるMetaの次世代...