TensorFlow を使用してロボットに音楽を作曲する方法を教えるにはどうすればよいでしょうか?秘密はこれです

今日はAIがどのように音楽を作曲するのかを見ていきたいと思います。

この記事では、TensorFlow を使用して音楽ジェネレーターを作成します。

ロボットに「希望と驚きを語る歌が欲しい」と言ったら、何が起こるでしょうか?

コンピューターはまず音声をテキストに変換し、キーワードを抽出して単語ベクトルに変換します。次に、タグ付けされた音楽データをいくつか使用します。これらのラベルはさまざまな人間の感情を表します。そして、これらのデータに基づいてモデルをトレーニングし、モデルをトレーニングした後、必要なキーワードを満たす音楽を生成できます。プログラムの最終的な出力はいくつかのコードです。所有者が出力に必要とする感情的なキーワードに最も近いコードを選択します。もちろん聴くだけでなく、創作の参考にもなるので、10,000時間の集中練習を達成していなくても簡単に音楽創作ができるようになります。

機械学習は実際には私たちの脳を拡張し、能力を拡張することです。

DeepMind は、音楽生成とテキスト読み上げの技術を紹介した「WaveNet」という論文を発表しました。

一般的に、音声生成モデルは連結されます。つまり、テキストサンプルから音声を生成する場合、音声の一部を切り取って再構成し、完全な文を形成するために、非常に大規模な音声断片データベースが必要になります。

音楽の生成についても同じことが言えますが、大きな難しさがあります。静的なコンポーネントを組み合わせると、生成されるサウンドは自然で感情的なものになる必要があり、これは非常に困難です。

理想的なアプローチは、音楽を生成するために必要なすべての情報をモデルのパラメータに保存できることです。それがその論文で議論されていることです。

音声信号を取得するために出力結果を信号処理アルゴリズムに渡す必要はなく、音声信号の波形を直接処理します。

彼らが使用したモデルはCNNです。このモデルの各隠れ層では、各拡張係数が相互接続され、指数関数的に増加します。各ステップで生成されたサンプルはネットワークに再入力され、次のステップの生成に使用されます。

このモデルの図を見てみましょう。入力データは別のノードです。大まかな音波なので、後続の操作を容易にするために、まず前処理する必要があります。

次に、それをエンコードして、いくつかのサンプルとチャネルを持つテンソルを生成します。次に、それを CNN ネットワークの最初のレイヤーに入力します。このレイヤーは、処理を容易にするためにチャネルの数を生成します。次に、すべての出力結果を組み合わせて次元を増やします。次に、次元を元のチャネルの数まで増やします。この結果を損失関数に入れて、モデルがどの程度トレーニングされているかを測定します。 ***、この結果はネットワークに再度投入され、次の時点に必要な音波データが生成されます。このプロセスを繰り返すことで、より多くの音声を生成できます。ネットワークは大規模で、GPU クラスターで 90 分かかり、1 秒のオーディオしか生成できませんでした。

次に、より単純なモデルを使用して、TensorFlow でオーディオジェネレーターを実装します。

1.パッケージの紹介:

データサイエンスパッケージ Numpy、データ分析パッケージ Pandas、および tqdm は、トレーニングの進行状況を示す進行状況バーを生成できます。

 numpyをnpとしてインポートする
 
 pandasをpdとしてインポートする
 
 msgpack をインポートする
 
インポートグロブ
 
テンソルフローをtfとしてインポートする
 
 tensorflow.python.opsからcontrol_flow_ops をインポートします
 
 tqdmからtqdm をインポート
 
 midi_manipulationをインポートする

生成モデルとして、ニューラルネットワークモデル RBM 制限ボルツマンマシンを使用します。

これは 2 層ネットワークです。最初の層は可視層で、2 番目の層は非表示層です。同じレイヤー内のノード間には接続がなく、異なるレイヤー内のノードは互いに接続されています。各ノードは、受信したデータを次のレイヤーに送信する必要があるかどうかを決定する必要があり、この決定はランダムに行われます。

2. ハイパーパラメータを定義する:

まず、モデルによって生成する必要がある音符の範囲を定義します

lowest_note = midi_manipulation.lowerBound #インデックス ピアノロールの最低音
 
最高音 = midi_manipulation.uPPerBound #インデックス ピアノロールの最高音
 
 note_range = 最高音-最低音 #音域

次に、タイムステップ、つまり可視レイヤーと非表示レイヤーのサイズを定義する必要があります。

 num_timesteps = 15 #これは作成するタイムステップの数です 一度に  
 
 n_visible = 2*note_range*num_timesteps #これがサイズです 可視レイヤーの。 
 
 n_hiDDen = 50 #これがサイズです 隠れ層の

トレーニングステップの数、バッチサイズ、学習率。

 num_epochs = 200 #実行するトレーニング エポックの数。各エポックでデータセット全体を調べます。 
 
 BAtch_size = 100 #RBM を介して一度に送信するトレーニング例の数。 
 
 lr = tf.constant（0.005, tf.float32） #モデルの学習率

3. 変数を定義します。

xはネットワークに送られるデータである

wは重み行列、つまり2つの層間の関係を格納するために使用されます。

さらに、2 つのバイアスが必要です。1 つは隠し層の bh で、もう 1 つは可視層の bv です。

 x = tf.placeholder(tf.float32, [None, n_visible], name = "x" ) #データを保持するプレースホルダー変数
 
 W = tf.Variable(tf.random_normal([n_visible, n_hidden], 0.01), name = "W" ) #エッジの重みを格納するweightMATrix 
 
 bh = tf.Variable(tf.zeros([1, n_hidden], tf.float32, name = "bh" )) #隠れ層のバイアスベクトル
 
 bv = tf.Variable(tf.zeros([1, n_visible], tf.float32, name = "bv" )) #可視レイヤーのバイアスベクトル

次に、補助メソッド gibbs_sample を使用して、入力データ x からのサンプルと、隠し層のサンプルを作成します。

gibbs_sample は、複数の確率分布からサンプルを抽出できるアルゴリズムです。

各状態が前の状態に依存する統計モデルを生成し、分布に準拠するサンプルをランダムに生成できます。

 #xのサンプル
 
 x_sample = ギブスサンプル(1) 
 
 #xの可視状態から始まる、隠れノードのサンプル
 
 h = サンプル(tf.sigmoid(tf.matMUl(x, W) + bh)) 
 
 #x_sampleの可視状態から始まる、非表示ノードのサンプル
 
 h_sample = サンプル(tf.sigmoid(tf.matmul(x_sample, W) + bh))

4. 変数を更新します。

サイズ_bt = tf.CA 
 
 st(tf.shape(x)[0], tf.float32) 
 
 W_adder = tf.mul(lr/size_bt、tf.sub(tf.matmul(tf.transpose(x)、h)、tf.matmul(tf.transpose(x_sample)、h_sample))) 
 
 bv_adder = tf.mul(lr/size_bt, tf.reduce_sum(tf.sub(x, x_sample), 0, True )) 
 
 bh_adder = tf.mul(lr/size_bt, tf.reduce_sum(tf.sub(h, h_sample), 0, True )) 
 
 # sess.run（updt）を実行すると、TensorFlowは3つの更新ステップすべてを実行します
 
更新 = [W.assign_add(W_adder), bv.assign_add(bv_adder), bh.assign_add(bh_adder)]

5. グラフアルゴリズムグラフを実行します。

1. まず変数を初期化する

tf.Session()を sessとして使用: 
 
 #まず、モデルをトレーニングします
 
 #モデルの変数を初期化する
 
初期化 = tf.initialize_all_variables() 
 
セッションの実行(初期化)

まず、対応するベクトル表現をモデルのトレーニングにうまく使用できるように、各曲の形状を変更する必要があります。

 tqdm(range(num_epochs))のエポックの場合: 
 
 songGSの歌の場合: 
 
 #曲は時間×音符の形式で保存されます。サイズは 各曲のtimesteps_in_song x 2*note_range 
 
 #ここでは、各トレーニング例がnum_timesteps x 2*note_range要素を持つベクトルになるように曲を再形成します
 
歌 = np.array(歌) 
 
歌 = 歌[:np.floor(song.shape[0]/num_timesteps)*num_timesteps] 
 
歌 = np.reshape(歌、[歌.shape[0]/num_timesteps、歌.shape[1]*num_timesteps])

2. 次に、RBMモデルを1サンプルずつトレーニングします。

 iが範囲(1、len(song)、batch_size)の場合: 
 
 tr_x = 曲[i:i+バッチサイズ] 
 
 sess.run（updt、feed_dict={x: tr_x}）

モデルが完全にトレーニングされると、音楽の生成に使用できるようになります。

3. ギブスチェーンをトレーニングする必要がある

表示可能なノードは、いくつかのサンプルを生成するために 0 に初期化されます。

次に、再生に適した形式にベクトルを再形成します。

サンプル = gibbs_sample(1).eval(セッション=sess、フィードディクショナリ={x: np.zeros((10, n_visible))}) 
 
 iが範囲内(sample.shape[0])の場合: 
 
そうでなければ 任意(サンプル[i,:]): 
 
続く  
 
 #ここでベクトルを時間×音符の形に変え、  次に、ベクターをMIDIファイルとして保存します。 
 
 S = np.reshape(サンプル[i,:], (num_timesteps, 2*note_range))

4.***、生成されたコードを印刷する

midi_manipulation.noteStateMatrixToMidi(S, "generated_chord_{}" .format(i)) 1212

要約すると、CNN はパラメータ化された音波を生成するために使用されます。

RBM はトレーニングデータに基づいてオーディオサンプルを簡単に生成できます。

ギブスアルゴリズムは、確率分布に基づいてトレーニングサンプルを取得するのに役立ちます。

***Siraj のオリジナルビデオとソースコードリンクをお送りします。

<<: 正義がアルゴリズムを採用したとき、最後に笑うのは正義か、それともテクノロジーか?

>>: 機械学習初心者からマスターまで

LLMが互いに戦うことを学ぶと、基本モデルは集団進化の先駆けとなるかもしれない

ブログ

2023年第18回中国企業年次選定リストが発表されました：Venustech Pan Xiaoguセキュリティモデルが2023年中国IT産業セキュリティイノベーション製品賞を受賞

ブログ

TensorFlow を使用してロボットに音楽を作曲する方法を教えるにはどうすればよいでしょうか?秘密はこれです

LLMが互いに戦うことを学ぶと、基本モデルは集団進化の先駆けとなるかもしれない

2023年第18回中国企業年次選定リストが発表されました：Venustech Pan Xiaoguセキュリティモデルが2023年中国IT産業セキュリティイノベーション製品賞を受賞

Photoshop 2020が登場、人工知能でデザインが簡単に

ゲームに「顔認識」を追加したことで生まれた考え

GPT-4はますます愚かになり、過去の返信をキャッシュしていることが明らかになりました。ジョークが800回言われても、新しい返信は聞きません。

オペレーティングシステムに関して、一般的に使用されているスケジューリングアルゴリズムをいくつ知っていますか?

知っておくべきディープラーニングの10の一般的な手法

推薦する

人工知能やロボットによって仕事が奪われた後、人々の収入はどこから来るのでしょうか？考えるための材料

スタンフォード大学：大きなモデルは間違った方向に「転がっている」のか？コンテキストウィンドウが長くなるほど、モデルは愚かになります。

マイクロソフトの社内文書が公開：パノス・パナイ氏が退社後、WindowsとSurfaceの将来について説明

映画の好みを予測しますか?オートエンコーダを使用して協調フィルタリングを実装する方法

ChatGPTは故意に嘘をついたのでしょうか?ハーバード大学がITIを提案: モデルの信頼性を2倍にし、計算オーバーヘッドをほぼゼロにする

アンドリュー・ン：ディープラーニングの知識を完全に説明する 22 枚の写真

新しいエッジAI手法であるTinyMLは、超低消費電力でエッジデバイス上で機械学習を実行します。

コンテキストの長さを 256k に拡張すると、LongLLaMA の無限コンテキストバージョンが登場しますか?

MIT テクノロジーレビュー: 6 つの質問が生成 AI の未来を決定する

人工知能が社会にもっと役立つように

ドイツのセキュリティ専門家がGPRS暗号化アルゴリズムの解読に成功

GPT-4.5 と同等のコードインタープリター! GPT-5をトレーニングせずに、OpenAIは依然としてAGIに向けて競争している

シュナイダーエレクトリックの革新力は、デジタル化と低炭素化の二重の変革を加速させる上でどのような役割を果たすのでしょうか。