GANは音声を使って画像を生成できるようになった

GANは音声を使って画像を生成できるようになった

[[432735]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

皆さんはCLIPをご存知でしょうか?

今年1月にOpenAIが立ち上げたこのシステムは、テキストの説明と写真の正確なマッチングを実現できる。

さて、ある人が「素晴らしいアイデア」を思いつき、CLIP からオーディオ表現の方法を学びました。

この方法をVQGAN-CLIP と併用することで、音から画像への変換を実現できます。

たとえば、4 種類のカエルの鳴き声を聞かせると、4 種類のカエルの写真が生成されます。

さまざまな教会の鐘の音を入力すると、次のような画像を生成できます。

まあ、まだ完全に飼いならされていない AI の内面世界が見えるような、ちょっと変わった画風ではありますが...

でもこれって面白いと思いませんか?

では、どちらも VQGAN-CLIP を使用しているので、テキスト生成と音声表現のどちらを使用する方が良いのでしょうか?

比較画像もこちらにあります:

1 行目はテキストに基づいて VQGAN-CLIP によって生成された画像で、2 行目はオーディオに基づいています。左から右へ:ストリートミュージック、犬の鳴き声、遊ぶ子供たち、銃声。

どちらがより似ていると思いますか?

現在、この音声表現方法に関する研究は、音響、音声、信号処理に関する最高峰の国際会議であるICASSPに採択されています。

では、オーディオファイルは画像とどのように接続されるのでしょうか?

CLIP からオーディオ表現を抽出する

この音声表現方法の何が特別なのか見てみましょう。

この方法は Wav2CLIP と呼ばれ、下の図からそのモデル アーキテクチャが CLIP と非常によく似ていることがわかります。

オーディオビジュアル対応モデルとして、Wav2CLIP にも 2 つのエンコーダーがあります。1 つはフリーズイメージ エンコーダー (Frozen Image Encoder) で、もう 1 つはオーディオ エンコーダーです。これらはそれぞれトレーニング用にビデオからイメージ データとオーディオ データを抽出します。

フリーズド イメージ エンコーダーは、CLIP のイメージ エンコーダーをフリーズすることによって得られます。つまり、CLIP ビジュアル モデルのグラフ構造と重みが一緒に固化され、その後直接読み込まれて実行されます。

オーディオ エンコーダーは、ビデオ内の CLIP 画像の埋め込みを抽出することによって事前トレーニングされます。これは、Wav2CLIP の前提タスクでもあります。

研究者らは、CLIP 論文のオリジナルのアプローチに従って、特徴抽出にコントラスト損失を使用し、投影層として多層パーセプトロン (MLP) を追加しました。

クロス投影の損失関数は次のように定義されます。

△ f/g: 投影関数、L: コントラスト損失関数

MLP レイヤーを追加すると、次の 2 つの利点があります。

まず、抽出プロセスを安定させるのに役立ちます。

第二に、モデルによって学習されたオーディオ埋め込みは、この投影レイヤーを通じて CLIP イメージの埋め込みを復元できるため、マルチモーダルの一貫性を高めることができます。

Wav2CLIP の学習データは、一般的には動画です。CLIP の画像エンコーダー (フリーズ操作) を使って音声画像と音声から特徴を抽出することで、どのような画像に対応すべきかを「理解した」音声表現を生成することができます。

逆に言えば、冒頭で見た「カエル」や「教会の鐘」のように、この表現からイメージを推測することもできます。

これは、潜在空間内のテキストプロンプトに一致する画像を見つけるために VQGAN を導く CLIP 埋め込みを Wav2CLIP オーディオ埋め込みに置き換えることによって行われます。

Wav2CLIP はこれまでのオーディオビジュアル対応モデルとは異なり、学習のために視覚モデルと聴覚モデルを組み合わせる必要がないため、トレーニング方法は非常に軽量です。

さらに、Wav2CLIP の埋め込みは CLIP から取得されるため、テキストに合わせて配置されます。

したがって、追加のトレーニング レイヤーを実行すると、Wav2CLIP は、ゼロ ショット オーディオ分類、オーディオ サブタイトル、クロスモーダル検索(テキストに基づいてオーディオを検索する) などのダウンストリーム タスクも実行できるようになります。

下流タスクのパフォーマンスの比較

実験評価では、Wav2CLIP はオーディオ エンコーダーとして ResNet-18 アーキテクチャを採用しています。

まず、分類と検索タスクにおける Wav2CLIP のパフォーマンスを見てみましょう。

  • 非 SOTA オーディオ表現モデルと比較すると、Wav2CLIP はほぼすべての分類および検索タスクでYamNet や OpenL3 よりもわずかに優れたパフォーマンスを発揮しますが、それが最大の強みというわけではなく、そもそもパフォーマンスに大きな違いはありません。

特に検索タスクでは、オーディオ検索 (AR) の場合、フレームレベルの特徴抽出器としての Wav2CLIP のパフォーマンスが非常に競争力があることがわかります。

クロスモーダル検索 (CMR) タスクでは、Wav2CLIP は 0.05 MRR を達成します。これは、上位 20 個のオーディオから正しい結果を取得できることを意味し、OpenL3 よりもはるかに優れています。

  • SOTA モデルと比較すると、まだ改善の余地があります

ただし、ほとんどの SOTA モデルでは、エンコーダーは各タスクで特別にトレーニングまたは微調整されますが、Wav2CLIP は固定された特徴抽出器のみを使用し、答え出力するための単純な MLP 分類器のみをトレーニングするため、これは理解できます。つまり、すべてのタスクで同じオーディオ エンコーダーが使用されるのです。

オーディオ字幕タスクのベースラインと比較した結果を見てみましょう。

すべての指標はベースラインよりもわずかに優れています。

しかし、著者らは、エンコーダとデコーダのアーキテクチャが異なるため、これは公平な比較ではないと述べていますが、Wav2CLIP がさまざまなタスクに簡単に適応でき、それでも妥当なパフォーマンスを発揮できることを示したいと思っています。

最後に、Wav2CLIP、OpenL3、YamNet を使用して、さまざまな割合のトレーニング サンプルを使用した VGGSound オーディオ分類の結果を見てみましょう (VGGSound には 10 秒の YouTube ビデオが 309 本含まれています)。

Wav2CLIP は OpenL3 を圧倒し、YamNet に匹敵することがわかります。トレーニング データの 10% を使用して同じパフォーマンスを達成できます。

しかし、Wav2CLIP と YamNet の事前トレーニングタスクは大きく異なります。YamNet は大量のラベル付きデータを必要としますが、Wav2CLIP は手動による注釈なしで事前トレーニングを完了するため、 Wav2CLIP の方が拡張が容易です

一般に、このオーディオ表現方法でさらにトレーニングされたモデルは、上記の 3 つのタスクすべてにおいて、同等のモデルと同等以上のパフォーマンスを発揮できます。

研究者らは、今後の研究について、Wav2CLIP上でマルチモーダルデータ用に特別に設計されたさまざまな損失関数と投影レイヤーを試し、共有埋め込み空間からオーディオを生成して、テキストや画像からオーディオへのクロスモーダル生成を実現することを検討すると述べた。

論文の宛先:

https://arxiv.org/abs/2110.11499

オープンソースコード:

https://github.com/descriptinc/lyrebird-Wav2CLIP

オーディオから画像へのその他のデモ:

https://descriptinc.github.io/lyrebird-wav2clip

[[432738]]

<<:  OpenAI が GPT-3 を使って小学生と数学で競います!小型モデルのパフォーマンスは2倍になり、1750億の大型モデルに匹敵する

>>:  最初の機械学習APIをデプロイする

ブログ    
ブログ    

推薦する

AIは感情に関してより賢くなってきているのでしょうか?人間もそうすべきだ

人々は、一人でいるときと公共の場では行動が大きく異なりますが、基本的な性格は同じままです。観客のいな...

2018 年の 12 件の主要な AI および機械学習の買収

[51CTO.com クイック翻訳] IDC によると、人工知能 (AI) と認知システムへの世界的...

深い思考: テイクアウトの背後にある人工知能アルゴリズムの秘密_IT テクノロジーウィークリー 647 号

知識の蓄積は規模の拡大をもたらし、規模の拡大は市場の集中につながります。 産業が「組立ライン」の形で...

COVID-19パンデミックの中、米国の産業界ではロボットがアメリカ人の雇用を急速に置き換えている

海外メディアの報道によると、アマゾンはこのほど、米カリフォルニア州の倉庫の管理者が新型コロナウイルス...

アート業界におけるメタバースの探究

メタバースの概念がますます普及するにつれて、さまざまな業界がこの豊かな土地を探索し始めました。多くの...

Microsoft は GPT-4V マニュアルを作成しました。166 ページに及ぶ完全かつ詳細な説明と、プロンプト ワードのデモ例が含まれています。

マルチモーダルキングボムモデルGPT-4V、 166ページの「取扱説明書」を公開!これは Micro...

Spark を使用して行列分解推奨アルゴリズムを学習する

[[182792]]協調フィルタリング推奨アルゴリズムにおける行列分解の応用では、推奨アルゴリズムに...

百度のCTO王海鋒が百度ブレイン7.0をリリース: イノベーションを統合し障壁を下げる

火星の環境について知りたいですか?たった一文であなた自身のデジタル人物を生成したいですか?こうした最...

行列の乗算は乗算を必要とせず、100倍高速化、MITが近似アルゴリズムをオープンソース化

[[421266]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

ChatGPT を成功させるための 26 のスーパーヒント

今日は、実際の戦闘でよく使われる26のヒントを紹介します。これにより、出力がより効果的になります。見...

...

...

中国 NeurIPS の著者の 54% が米国へ:ケンブリッジ AI パノラマ レポートが発表

NeurIPSに受理された論文のうち、著者の29%は中国の大学で学士号を取得していますが、そのうち...

PythonコードからAPPまで、必要なのは小さなツールだけ:GitHubには3,000以上のスターがある

機械学習開発者にとってアプリを構築するのはどれくらい難しいのでしょうか?実際、Python コードを...

人工知能のトレンドが電子商取引業界のビジネスを変える

電子商取引企業は常に技術革新の最前線に立ってきました。彼らでさえ、ビッグデータの突然の驚くべき破壊力...