「GPT-4 は単にデータを圧縮しているだけです。」Ma Yi 氏のチームはホワイト ボックス Transformer を作成しました。説明可能なビッグ モデルが登場するのでしょうか?

「GPT-4 は単にデータを圧縮しているだけです。」Ma Yi 氏のチームはホワイト ボックス Transformer を作成しました。説明可能なビッグ モデルが登場するのでしょうか?

AGI からどれくらい離れているのでしょうか?

ChatGPTによって引き起こされた新たなAI爆発の後、一部の研究者は、大規模言語モデルは観察を通じて因果推論を行う能力を持っているが、新しい因果シナリオを積極的に推論する能力が欠けていると指摘した。これは、楽観的な予測と比較すると、AGI が依然として複雑で遠い目標であることを意味します。

AI コミュニティでは、ニューラル ネットワークの学習プロセスは単なるデータ セットの圧縮である可能性があるという見方が常にありました。

最近、バークレー校と香港大学の馬怡教授率いる研究チームが最新の研究結果を発表しました。GPT -4を含む現在のAIシステムは圧縮を行っています。

彼らは、新たに提案されたディープネットワークアーキテクチャである CRATE を使用してこれを数学的に検証しました。

さらに注目すべきは、CRATE はホワイトボックス Transformer であり、ほぼすべてのタスクでブラックボックス Transformer に匹敵するだけでなく、優れた解釈可能性も備えていることです。

これを踏まえて、馬毅教授はツイッターで興味深い洞察も共有した。現在のAIは単にデータを圧縮しているだけなので、データ内の相関関係や分布を学習することしかできず、因果関係や論理的推論、抽象的な思考能力は実際には備わっていない。したがって、近年のディープラーニングは大量の高次元およびマルチモーダルデータの処理とモデリングの実験で大きな成功を収めているにもかかわらず、今日の AI はまだ AGI ではありません。

しかし、この成功の多くは、データ分布内の圧縮可能な低次元構造を効果的に学習し、その分布を簡潔な(つまり、コンパクトで構造化された)表現に変換するディープ ネットワークの能力によるものです。このような表現は、視覚、分類、認識、セグメンテーション、生成などの多くの下流タスクを支援するために使用できます。

表現学習は圧縮符号化と復号化によって実現される

これらの実践の背後にある共通の問題をより正式に表現するために、特定のデータセットからのサンプルを高次元空間 ℝ^D 内のランダム ベクトル x として考えることができます。

通常、x の分布は、それが存在する空間よりもはるかに低い固有の次元を持ちます。一般的に言えば、表現を学習するということは、通常、f(・)などの連続マッピング関係を学習することを意味します。これは、xを別の空間ℝ^d(通常は低次元空間)のいわゆる特徴ベクトルzに変換できます。人々はこのようなマッピングを通じて次のことを期待しています。

x の低次元の固有構造をコンパクトかつ構造化された方法で見つけ、z を使用してそれを表現できるため、分類や生成などの後続のタスクに役立ちます。特徴 z は、元のデータ x の (学習された) コンパクトなエンコードとして見ることができるため、マッピング f はエンコーダーとも呼ばれます。

このように、表現学習の根本的な問題(これは本研究の中心的な問題でもある)は次のようになります。

表現の質を測定するために、数学的原理によって保証された効果的な測定方法はあるでしょうか?

概念的には、表現 z の品質は、後続のタスクに対して x に関する最も関連性が高く十分な情報をどれだけうまく見つけられるか、そしてその情報をどれだけ効率的に表現できるかによって決まります。

長い間、学習した特徴の「十分性」と「良さ」は、特定のタスクに応じて定義されるべきだと考えられてきました。たとえば、分類問題では、クラス ラベル y を予測するには z だけで十分です。

このタイプの表現学習におけるディープラーニングまたはディープネットワークの役割を理解するために、Tishby と Zaslavsky (2015) は論文「ディープラーニングと情報ボトルネックの原理」で情報ボトルネック フレームワークを提案しました。この論文では、特徴の良さを測定する 1 つの方法は、z と y の間の相互情報量を最大化し、z と x の間の相互情報量を最小化することです。

ただし、近年の一般的な手法では、まず大規模なディープ ニューラル ネットワーク (ベース モデルとも呼ばれる) を事前トレーニングして、タスクに依存しない表現を学習します。学習された表現は、複数の特定のタスクに合わせて微調整されます。研究によると、このアプローチはさまざまなデータ モダリティを使用して多くの実用的なタスクを効果的かつ効率的に処理できることがわかっています。

ここでの表現学習は、特定のタスクの表現学習とは大きく異なることに注意してください。タスク固有の表現学習では、z が特定の y を予測するだけで十分です。タスクに関係なく、学習された表現 z は、データ x の分布に関する重要な情報のほぼすべてをエンコードする必要があります。つまり、学習された表現 z は、x の固有構造のよりコンパクトで構造化された表現であるだけでなく、ある程度の信頼度で x を回復することもできます。

したがって、タスクに関係なく、学習された(特徴)表現の良さを測る原則的な尺度は何であるべきかという疑問が自然に生じます。

研究者たちは、次の(逆)マッピング(デコーダーまたはジェネレーターとも呼ばれる)を通じて z から x をどれだけうまく復元できるかを見て、表現 z が x に関する十分な情報をエンコードしているかどうかを確認することが効果的な方法(おそらく唯一の方法)であると考えています。

エンコーダfは通常は非可逆なので、その逆写像がxを正確に復元するとは期待できないが、近似値が得られる。

通常、デコードされた x が x に最も近くなるように、サンプル数(たとえば、期待される平均二乗誤差を最小化することによって)または緩和された分布の意味で最適なエンコードとデコードのマッピングを探します。

研究者はこのプロセスを圧縮エンコードとデコード、または圧縮自動エンコードと呼んでいます。この考え方はオートエンコーダの本来の目的と非常によく一致しており、x が線形低次元構造を持つ場合への古典的な主成分分析の一般化として見ることができます。

過去 11 年間にわたる広範な実験により、ディープ ネットワークは非線形エンコードおよびデコード マッピングのモデル化に非常に効果的であることが明確に実証されています。

ディープラーニングのほぼすべてのアプリケーションは、f または g のいずれかを部分的または完全に学習することによって、このようなエンコードまたはデコード スキームを実装することに依存していますが、これらは別々に学習することも一緒に学習することもできます。

概念的にはデコーダー g はエンコーダー f の「逆」マッピングになるはずですが、実際にはエンコーダーとデコーダーのアーキテクチャがどのように関連しているかは不明でした。多くの場合、デコーダーのアーキテクチャ設計はエンコーダーとはほとんど関係がなく、実験テストやアブレーション実験を通じて選択されることが多いです。

表現学習のための優れた理論的枠組みは、エンコーダーとデコーダーのアーキテクチャ間の関係を明確に明らかにするはずであると想像できます。そして、まさにそれがこの研究が達成しようとしていることです。

研究者らは、これまでに提案された関連方法を要約し、以下の状況に分類しました。

  • 圧縮を通じて現代のディープネットワークのブラックボックスを開きます。
  • トランスフォーマーモデルと圧縮。
  • ノイズ除去拡散モデルと圧縮。
  • 低次元メトリックの推進: スパース性とレート削減。
  • 展開する最適化: ネットワークの解釈と設計のための統一パラダイム。

詳細については原文論文を参照してください。

本研究の目的と貢献

彼らは理論と実践の間に橋を架けます。この目的のために、本研究ではより完全で統一されたフレームワークを提案します。

一方で、この新しいフレームワークは、圧縮エンコード/デコード (または自動エンコード)、レート削減、ノイズ除去拡散など、ディープ ネットワークに基づく一見異なる多くのアプローチを統一的に理解できるようにします。

一方、このフレームワークは、研究者が、数学的に完全に解釈可能であるだけでなく、大規模な現実世界の画像やテキスト データセットのほぼすべての学習タスクで競争力のあるパフォーマンスを達成できるディープ ネットワーク アーキテクチャを導出または設計できるように導くことができます。

上記の観察に基づいて、彼らはホワイトボックスのディープネットワーク理論を提唱しました。より具体的には、彼らはコンパクトで構造化された表現を学習するための統一された目標、つまり原理に基づいた良さの尺度を提案しています。学習された表現については、この目的は、コーディング レートの削減の観点から見た本質的な複雑さと、スパース性の観点から見た外在的な複雑さの両方を最適化することを目指します。彼らはこの目標をスパース レート削減と呼んでいます。図 3 は、この目標の背景にある直感を示しています。

 

この目的を最適化するために、彼らは、展開された目的関数に対して勾配降下法のような反復最適化スキームをエミュレートする一連の増分マッピングを学習することを提案しています。これにより、Transformer のようなディープ ネットワーク アーキテクチャが自然に実現され、これは完全に「ホワイト ボックス」になります。つまり、最適化の目的、ネットワーク オペレーター、学習された表現は完全に数学的に解釈可能です。

彼らはこのホワイトボックスのディープ アーキテクチャを CRATE または CRATE-Transformer と名付けました。これは Coding-RATE transformer の略です。彼らはまた、これらの増分マッピングが分布の意味で可逆的であること、そしてその逆マッピングが本質的に同じクラスの数学演算子で構成されていることを数学的に証明しました。

したがって、エンコーダー、デコーダー、またはオートエンコーダーにほぼ同じ CRATE アーキテクチャを使用できます。図4は自動エンコードプロセスを示しており、各エンコード層f^𝓁とデコード層g^{L-𝓁}は(部分的に)可逆的です。

下の図は、CRATE ホワイト ボックス ディープ ネットワーク設計の「メイン ループ」を示しています。

CRATE は、入力データ X をトークンのシーケンス Z^1 に前処理した後、分布のローカル モデルを連続的に圧縮して Z^{ℓ+1/2} を生成し、グローバル辞書に対してスパース化を実行して Z^{ℓ+1} を取得することにより、データを低次元サブスペースの標準構成に変換するディープ ネットワークを構築します。これらのモジュールを繰り返し積み重ね、バックプロパゲーションを使用してモデルパラメータをトレーニングすることで、強力で解釈可能なデータ表現を得ることができます。

CRATE エンコーダー アーキテクチャの 1 つのレイヤーを以下に示します。完全なアーキテクチャは、これらのレイヤーのチェーンと、いくつかの初期トークナイザー、前処理ヘッダー、そして最後にタスク固有のヘッダーで構成されます。

下の図はエンコーダー層とデコーダー層を比較したもので、どちらも部分的に可逆的であることがわかります。

より理論的かつ数学的な説明については、原著論文を参照してください。

実験的評価

このフレームワークが実際に理論と実践を結び付けることができることを実証するために、研究チームは画像とテキストデータに対して広範な実験を行い、従来のトランスフォーマーが優れているさまざまな学習タスクと設定で CRATE モデルの実際のパフォーマンスを評価しました。

次の表は、さまざまなデータセットにおけるさまざまなサイズの CRATE の Top-1 精度を示しています。

表 2 は、トレーニング セットと検証セットにおける CRATE ベース モデルと MAE ベース モデルの平均再構築損失を示しています。

驚くべきことに、概念的および構造的な単純さにもかかわらず、 CRATE は、教師あり学習による画像分類、画像と言語の教師なしマスク補完、画像データの自己教師あり特徴学習、次の単語予測による言語モデリングなど、すべてのタスクと設定でブラックボックスの同等のシステムよりも優れています。

さらに、CRATE モデルには他の実用的な利点もあります。各レイヤーとネットワーク オペレーターには統計的および幾何学的な意味があり、学習したモデルの解釈可能性はブラック ボックス モデルよりも大幅に優れており、その機能には意味的な意味があります (つまり、オブジェクトを背景から簡単に分割し、共有部分に分離できます)。

下の図は、各レイヤーℓにおけるレイヤーごとのトークンZ^ℓ表現を視覚化したものです。

下の図は、教師あり CRATE からの自己注意マップを示しています。

リソースの制約により、彼らは実験において意図的に現状のベストを追求しなかったことに注意してください。そうすると、大規模なエンジニアリング開発や微調整が必​​要になるからです。

それでも、これらの実験により、新たに提案されたホワイトボックスディープネットワーク CRATE モデルが一般的に効果的であり、さらなるエンジニアリングの開発と改善のための強固な基盤を築くことが確実に検証されたと研究者らは述べています。

<<:  マテリアル界のImageNet、大規模6次元マテリアル実写データベースOpenSVBRDFを公開

>>:  人工知能における計算能力、アルゴリズム、データに関する簡単な説明

ブログ    

推薦する

ちょうど今、ビートルズはAIがプロデュースした「最後の」新曲をリリースした。

音楽に詳しい友人なら、ビートルズを知らない人はいないでしょう。ビートルズは、歴史上最も偉大で最も影響...

人工知能: Web3 の救世主か破壊者か?

ブロックチェーン技術の発展に伴い、Web3(分散型Webとも呼ばれる)が徐々にWeb2(集中型Web...

AIと機械学習が克服すべき3つのハードル

[[343495]] [51CTO.com クイック翻訳] 人工知能革命はまだ初期段階ですが、人工知...

...

Microsoft と Meta が提携し、Bing 検索を Meta AI チャットボットに統合

9月28日早朝、Meta Connect 2023において、MetaはMeta AIという新しいチャ...

...

Stability AIがAIプログラミングツール「StableCode」をリリース

Stability AI は、プログラミング用の最初の生成 LLM AI 製品である StableC...

...

...

...

...

2018 年の AI における画期的なテクノロジーのトップ 10 をご紹介します。いくつご存知ですか?

1. ニューラルネットワークに基づく機械翻訳選択理由: 翻訳は「自然言語処理」の中でも最も重要な分...

GPT-3の良き「パートナー」:この方法はモデルの劣化を軽減し、出力をより自然にします

テキスト生成は、多くの自然言語処理アプリケーションにとって重要です。しかし、ニューラル言語モデルの最...

Googleの最新のNLPモデルは、パラメータが300分の1しかないのにBERTに匹敵するパフォーマンスを実現

Google は最新のブログ投稿で、テキスト分類タスクで BERT レベルのパフォーマンスを達成でき...