AIの最下層に突入! NUSのYou Yang氏のチームは拡散モデルを使用してニューラルネットワークパラメータを構築したとLeCun氏は称賛した。

AIの最下層に突入! NUSのYou Yang氏のチームは拡散モデルを使用してニューラルネットワークパラメータを構築したとLeCun氏は称賛した。

拡散モデルは新たな大きな応用をもたらしました——

ソラが動画を生成するのと同じように、ニューラルネットワークのパラメータを生成することで、AIの最下層に直接浸透します。

これは、シンガポール国立大学のYou Yang教授のチームがUCB、Meta AI Labなどの機関と共同で行った最新のオープンソース研究成果です。

具体的には、研究チームはニューラルネットワークパラメータを生成するための拡散モデルp (パラメータ) -diffを提案しました。

これを使用してネットワーク パラメータを生成すると、直接トレーニングするよりも最大 44 倍高速になり、パフォーマンスも同様に良好になります。

このモデルがリリースされると、AI コミュニティではすぐに白熱した議論が巻き起こり、業界関係者の驚きは、一般の人々がソラを見たときの反応に劣らないものでした。

これは基本的に AI が新しい AI を作成するのと同じだと叫ぶ人もいました。

AI界の巨人LeCunでさえ、この成果を見て「本当にかわいいアイデアだ」と称賛した。

実際、p-diff は Sora と同じくらい重要であり、同じ研究室の Fuzhao Xue 博士が詳しく説明しています。

Sora は高次元データ、つまりビデオを生成するため、Sora は世界シミュレーターになります (1 次元の AGI に近い)。

そして、モデル内でパラメータを生成できるこのニューラル ネットワーク拡散という作業は、メタ世界クラスの学習者/最適化者になる可能性があり、別の新しい重要な次元から AGI に向かって進んでいます。

さて、本題に戻りましょう。p-diff はどのようにしてニューラル ネットワーク パラメータを生成するのでしょうか?

オートエンコーダと拡散モデルを組み合わせる

この問題を理解するには、まず拡散モデルとニューラル ネットワークの動作特性を理解する必要があります。

拡散生成プロセスは、ランダムな分布から高度に特定の分布への移行であり、複合ノイズの追加によって視覚情報が単純なノイズ分布に劣化します。

ニューラル ネットワークのトレーニングもこの変換プロセスに従い、ノイズを追加することで劣化させることもできます。この特徴にヒントを得て、研究者は p-diff 法を提案しました。

構造的には、p-diff はオートエンコーダーと組み合わせた標準的な潜在拡散モデルに基づいて研究チームによって設計されました。

研究者らはまず、訓練されて良好なパフォーマンスを示したネットワークパラメータの一部を選択し、それを1次元ベクトル形式に拡張した。

次に、オートエンコーダーを使用して、拡散モデルのトレーニング データとして 1 次元ベクトルから潜在表現を抽出します。これにより、元のパラメーターの主要な特徴を捉えることができます。

トレーニング中、研究者は順方向プロセスと逆方向プロセスを通じて p-diff にパラメータの分布を学習させます。学習が完了すると、拡散モデルは視覚情報を生成するプロセスと同じ方法で、ランダムノイズからこれらの潜在的表現を合成します。

最後に、新しく生成された潜在表現は、エンコーダーに対応するデコーダーによってネットワーク パラメーターに復元され、新しいモデルの構築に使用されます。

下の図は、p-diff と 3 つのランダム シードを使用して最初からトレーニングされた ResNet-18 モデルのパラメーター分布を示しており、異なるレイヤー間および同じレイヤー内の異なるパラメーター間の分布パターンを示しています。

p-diff によって生成されたパラメータの品質を評価するために、研究者らは、それぞれ 2 つのサイズの 3 種類のニューラル ネットワークを使用して 8 つのデータセットでテストしました。

以下の表では、各グループの 3 つの数字は、元のモデル、統合モデル、p-diff によって生成されたモデルの評価結果を表しています。

結果からわかるように、p-diff によって生成されたモデルのパフォーマンスは、基本的に手動でトレーニングされた元のモデルに近いか、それを上回っています。

効率の面では、精度を損なうことなく、p-diff は従来のトレーニングよりも 15 倍速く ResNet-18 ネットワークを生成し、Vit-Base を 44 倍速く生成します。

追加のテスト結果は、p-diff によって生成されたモデルがトレーニング データと大幅に異なることを示しています。

下の図 (a) からわかるように、p-diff によって生成されたモデル間の類似度は、元のモデル間の類似度や、p-diff と元のモデル間の類似度よりも低くなっています。

(b)と(c)からわかるように、p-diffの類似度も、微調整とノイズ追加の類似度よりも低くなっています。

これらの結果は、p-diff がトレーニング サンプルを単に記憶するのではなく、実際に新しいモデルを生成することを示しています。また、優れた一般化能力を備えており、トレーニング データとは異なる新しいモデルを生成できることも示しています。

現在、p-diff のコードはオープンソースになっています。興味のある方は、GitHub で確認してみてください。

論文アドレス: https://arxiv.org/abs/2402.13144

GitHub: https://github.com/NUS-HPC-AI-Lab/Neural-Network-Diffusion

<<:  8/8/6/3のマンバ論文はついにICLR2024で却下された。ネットユーザー:吊り下げられた心臓はついに死んだ

>>:  ソラのトレーニングデータが流出した疑い、ネットユーザー「UE5が間違いなく使われている」

ブログ    

推薦する

グッドフェロー氏の行き先は決定。グーグルに戻り、ディープマインドでリモートワークを続ける予定

グッドフェロー:オフィスで働きたくないから転職するというのは本当ですか? AppleやGoogleの...

マスク氏はオープンAIの主任科学者に質問した。「いったい何を見てそんなに怖くなったのですか?」

2015年11月27日、イーロン・マスクはイリヤ・スツケヴァー氏がOpenAIの主任科学者として参...

5つの産業用類似アルゴリズム

1. はじめに広告主は通常、ユーザー タグに基づいて広告のターゲット ユーザーを定義します。たとえば...

AIが「軍事顧問」に?まずはRedditユーザーを獲得しよう

[[322491]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

「説明可能な」AIが金融セクターへの信頼を高める

[[423755]]人工知能は、詐欺の特定や金融犯罪の撲滅から、顧客への革新的なデジタル体験の提供に...

人工知能は人材紹介業界に狙いを定めています。仕事を見つけるにはロボットに頼らなければならないのでしょうか?

実装プロセスにおいて、AI 採用は本当にスローガン通りの結果を達成できるのでしょうか?求職者は3時間...

交通分野における人工知能、ビッグデータ、その他の技術の応用に関する簡単な議論

人工知能、ビッグデータ、モノのインターネット、クラウドコンピューティングなどの技術の台頭と発展に伴い...

GPT-4 Turboがリリースされ、APIがよりコスト効率化され、128Kコンテキストウィンドウが新時代をリード

1. はじめにGPT-4 をリリースしてからわずか 8 か月後、OpenAI は更新されたモデル G...

AI分析で遠隔ビデオ監視をより利用しやすくする方法

[[400505]] AI(人工知能)がさらに発展するにつれて、新たな用途やメリットが生まれる可能性...

...

人材管理を改善する人工知能の可能性

AI は人間の従業員の努力を補完し、彼らの時間を解放することができます。人事担当者はこの機会を利用し...

Douyinのユーザーは皆、地元の方言を話しています。2つの重要な技術が、地元の方言を「理解」するのに役立ちます。

国慶節の連休中、Douyinの「方言一つで故郷の出身者と証明」というアクティビティが全国のネットユー...

ディープラーニングコンパイラについて知っておくべきこと

[[409589]]ディープラーニングはここ 10 年ほどで急速に発展し、業界では多くのディープラー...

IoTとAIの組み合わせがもたらす大きなチャンス

食器洗い機がどれくらいの時間稼働するか知っていますか? 多くの人はおそらく退屈だと言うでしょう。この...

6 つの大きな障害に直面していますが、AI イノベーションはそれらをうまく克服できるでしょうか?

現状では、人工知能業界は消費者からの需要が大きく、投資家からの関心も高く、非常に活況を呈しているよう...