AIを安全で信頼できるものにするためには、まずアルゴリズムの一般化能力を理解することから始める

ディープラーニングシステムは、新しいデータに対してどの程度のパフォーマンス (一般化) を発揮しますか? パフォーマンスはどの程度ですか? AI システムの信頼性と信頼性を確立するには、アルゴリズムの一般化能力を評価する必要があります。

[[272740]]

AI は信頼できるのでしょうか? AI は人間がお酒を飲むときと同じように無謀になるのでしょうか? AI が起動すると、世界を破壊するのでしょうか?

統計学習理論の重要性は何ですか?

AI システムは、AI が起動されたときにアルゴリズムが期待どおりに機能できるように、安全で信頼できるものでなければなりません。 AIアルゴリズムが適切に機能することを保証することは、AIの採用と信頼を高めるために不可欠です[5]。

また、欧州委員会が発行した「信頼できるAIのための倫理ガイドライン」では、意思決定者はアルゴリズムの一般化能力を理解する必要があると明記されている。

しかし、モデルの一般化（一般化理論）の研究分野への投資は依然として不十分です。現在実行可能で実現可能な唯一の標準的なアプローチは、データ分割、検証セット、テストセットを用意することです。しかし、アルゴリズムの一般化能力を定量化できない場合にテスト（ホールドアウト）セットで推定することは理にかなっていますが、このプロセスは非常にトリッキーで、データ漏洩のリスクがあり、追加の独立性仮定（独立性検証のパラメータはホールドアウトセットとは別に選択される）が必要であり、pハッキング[20]などの手法と混同される可能性があります。

一般化とは何ですか?

上記の研究の主な前提は、データが潜在的な未知の分布 D によって生成されるということです。統計学習では分布に直接アクセスするのではなく、トレーニングサンプル S が与えられ、S の各要素が D によって生成され、独立して同一に分布していることを前提とします。学習アルゴリズムは、関数（仮説のクラス）の空間 H から関数（仮説 h）を選択します。ここで、H = {f(x, α)} であり、α はパラメータベクトルです。

したがって、仮説hの一般化誤差は、分布Dから選択されたサンプルxの期待誤差と経験的損失（与えられたサンプルSの損失）との差として定義することができます[4,11]。

私たちの仕事は、一般化誤差の上限を設定し、一般化誤差がどれほど深刻になるかを確認することです。

従来のアプローチ: モデル機能

従来の一般化理論では、仮説クラス H の複雑さ (容量) に基づいて一般化能力モデルが確立されます。簡単に言えば、クラスの「容量」は、そのクラスに適合できるデータセットの数によって決まります。クラスの容量が大きいほど、クラスの柔軟性は高まりますが、過剰適合が発生する可能性も高くなります。 [..] 容量制御では、より柔軟なモデルを使用して良好な適合性を得、過剰適合する非常に柔軟なモデルを破棄します。[8]

仮説クラス H の複雑性をどのように定義するのでしょうか? 従来の一般化理論の概念には、VC 次元、Rademacher 複雑性、PAC-Bayes 境界が含まれます。

VC の維持と死滅するニューロン

VC (Vapnik-Chervonenkis) 次元は、関数の曲率を評価することで関数クラスの複雑さを測定する方法です。クラス H の VC 次元は、H によって分割できるサンプルポイントの最大数です。関数によってサンプルポイントのグループを分割できる場合、グループ内のすべてのサンプルポイントにどのようなバイナリラベルが割り当てられていても、このタイプのサンプルは完全に分離できます。 [5]

図1：パラメータの数は劇的に増加しているが、テストエラーは劇的に増加していない[1]

Zhangらによる実験[7]によると、実際のデータで訓練された深層ネットワークの真の「パラメータ複雑度」は現在のところ不明であり、20年以上前のBartlettのVC計算（#ノード*#レイヤー）は大まかな上限にすぎないことが示されています[2]。

驚くべきことではないかもしれないが、死にゆくニューロンに関する実験データは、ネットワークが十分に大きく、非線形活性化関数ReLUを使用すると、多くの重みがゼロになることを示しています[13]。

では、モデルの VC 次元をどのように推定するのでしょうか?

PAC の学習可能性と Rademacher の複雑性

PAC (Probably Approximately Correct) 学習可能性の定義は、あらゆる分布 D および Є、δ>0 に対して、確率 1-δ で「Є 最適」仮説を見つけるアルゴリズムが存在するというだけです。分布ごとに 1 つのアルゴリズムを持つべきだという強い議論があります。つまり、代わりに Rademacher 複雑度は特定の未知の分布 D に対して定義されます。

[23]に基づくラデマッハ複雑性の概略導出

つまり、Rademacher 複雑度は、仮説クラス H がランダムな ±1 バイナリラベルに対応する能力を測定します。 VC 次元とは対照的に、Rademacher 複雑度は分布に依存し、実数値関数の任意のクラス (離散値関数だけでなく) に使用できます。

Bartlett の VC 次元計算と同様に、Rademacher 複雑性にはディープラーニングの有効な一般化境界がありません。実際、実験テストでは、多くのニューラルネットワークが任意のラベルでトレーニングセットに完全に適合することが示されているため、対応するモデル H の Rademacher 複雑度も完璧であることが期待されます。もちろん、これはラデマッハ複雑度の単純な上限に過ぎず、現実世界の設定では有用な一般化境界をもたらさない[7]。

つまり、理論的な研究はまだ有効な成果を生み出しておらず、解決策は「錬金術」やいくつかのベストプラクティスからしか見つけることができません。実践により、Rademacher のような複雑な学習アーキテクチャの場合、複雑さを本当に軽減する唯一の方法は、トレーニング済みの分類器を使用し、ホールドアウトセットを通じて欠落している一般化を検出することであることがわかっています。実際、世界中の実践者は誰でも、無意識のうちにこれを行っています。 Zhangら([7])の研究で導き出された結論は、この分野では超えるものはなく、広く認められている。

新しいアプローチ

今日の機械学習モデルは比較的複雑であり、古典的な一般化理論を使用して計算することは困難であり、学習システムの設計を導くことは困難である[2]。一般化理論に対する古典的なアプローチは記述的なものに過ぎない。言い換えれば、一般化が起こらない場合は複雑性尺度（VC次元とラデマッハー）を使用して証明できるが、実践を導く規範的な原則は存在しない[2]。

さらに、実験テストでは、ほぼ無限の容量を持つ仮説のクラスが実際にはうまく機能する可能性があることが示されています。これはディープラーニングモデルだけでなく、他の機械学習手法にも当てはまります。たとえば、カーネル (ラジアルベース関数など) を持つ一部のサポートベクターマシン (SVM) には、無限の VC 次元があります。より単純な線形モデルは、私たちを欺くことさえあります。過剰パラメータ化された線形モデルの仮説空間は、任意のトレーニングデータを記憶することができ、パラメータのノルムが任意に大きくなるにつれて、この空間は、パラメータが真のパラメータから任意に離れていても、トレーニングおよびテストエラーを任意にゼロに近づけることができます（ゼロを含む）。[12]ディープラーニングは、従来の一般化理論手法を非常に重視しています。過剰パラメータ化が非常に高い場合や容量が大きい場合（ランダムにラベル付けされたデータのトレーニングエラーがゼロ）でも[1]、ディープネットワークの主な問題は、オーバーフィッティングの欠如です。

現在、人々は複雑さの全体的な考え方を再検討しています。ディープラーニングに関しては、多くの新しい一般化手法も登場しています。

規範に基づく能力測定

容量メトリックを計算する 1 つの方法は、容量メトリックを、マージンによって正規化された重みマトリックスのノルムメトリックとして見ることです。データサンプルの出力クラスマージンは、モデルによって正しいクラスに割り当てられた値と、他のすべてのクラスの最大値を引いた差です。

図2. 注意パスノルム、ネットワーク入力から各層の単一ニューロンを通る出力までのすべての可能なパスの合計[14]

規範ベースの尺度はモデル内のパラメータの数だけに依存するわけではないため、その容量の潜在能力をよりよく表すことができる可能性がある[14]。ランダムラベルで訓練されたモデルは真のラベルで訓練されたモデルよりも常に複雑であり、したがって後者の一般化能力はより有利であるため、ノルムベースのメトリクスはディープニューラルネットワーク（DNN）の一般化を説明できます[14]。

図 3 CIFAR10 データ上の VGG ネットワーク (畳み込みニューラルネットワークアーキテクチャ) のさまざまな複雑さの尺度すべての実験において、学習されたネットワークのトレーニングエラーはゼロです。

上の図は、ランダムラベルを使用してモデルを学習する複雑さが、実際のラベルを使用してモデルを学習する複雑さよりも常に高いため、これらの尺度によって一般化を説明できることを示しています。さらに、トレーニングセットのサイズが大きくなるにつれて[22]、2つの複雑さの間のギャップも大きくなります。

容量の関連する別の尺度は、ネットワークのリプシッツ定数です。リプシッツ定数は、重み行列のスペクトルノルムの積です。スペクトルノルムは行列の最大の特異値であり、行列はベクトルを伸ばすことができます[9]。

リプシッツ定数は過剰リスク（テスト誤差からトレーニング誤差を引いたもの）に関連しています。しかし、過剰リスクにもかかわらず、この指標は時間の経過とともに増加します[4]。その増加はリプシッツ定数の間隔によって相殺され、相殺を繰り返すことで増加が正常化されます（図4を参照）。

図4 cifar10でSGDを使用してトレーニングされたAlexNet [4]

圧縮方法

一般化の基本定理によれば、トレーニングセットにm個の例がある場合、トレーニングデータとテストデータの誤差の差として定義される一般化誤差はsqrt(N'/m)のオーダーとなり、N'はネットワークの有効パラメータ数（または複雑さの尺度）である[23,24]。

N個の訓練可能なパラメータを持つ行列Cを取り、それをより少ないパラメータ（N'）でCとほぼ同じ訓練誤差を持つ別のC'に圧縮してみます。一般化定理によれば、訓練例の数がN'を超える限り、C'（圧縮されたネット！）はうまく一般化します[23,24]。

圧縮アプローチは非常に魅力的です。一方では、DNN の一般化境界を決定することができます。その一方で、実用的かつ運用上の幅広い利点も得られます。

比較的小さな（トレーニング済みの）モデルを本番環境で使用することには、多くの利点があります。実行速度が速く、消費電力が少なく（モバイルアプリケーションや組み込みアプリケーションでは重要）、メモリ消費量も少なくなります。
最近の研究では、「宝くじ仮説」を裏付ける実証的証拠が提示されています。これは、ランダムに初期化された高密度ニューラルネットワークに、分離してトレーニングできるように初期化されたサブネットワーク (当選宝くじ) が含まれているというものです。訓練されたサブネットワークは、同じ反復回数まで元のネットワークのテスト精度に一致することができます[16]。勝ちチケットを識別できるトレーニング戦略を採用すると、a) 学習の高速化、b) テスト精度の向上、c) … につながります。

「宝くじチケット方式」以外にも、興味深いネットワーク圧縮方式は数多くあります。非常に魅力的なアイデアの1つはTensorNetworksに触発されたものです。DNNの完全に接続された層の重み行列を表示する「Tensor Train」の概念は、有望な実験結果を示しています[17]。

このような圧縮には通常、圧縮されたネットワークの再トレーニングが必要ですが、[25]では、[23,24]が提供する圧縮の基本定理と一般化理論に基づく方法では考慮されていないネットワーク圧縮方法の調査が行われています。

結論は

ディープラーニングアルゴリズムの信頼性を確保するには、効果的な（厳密な）一般化境界を導出する必要があります。従来の方法 (VC 次元、Rademacher) ではこの問題に対する答えが得られず、新しい方法はまだ研究されていません。

<<: Logreduce: Python と機械学習でログノイズを除去する

>>: 彼の人工知能ツールは生きた細胞の内部を覗くことができる

ディープラーニングの父ヒントン氏が、人工知能を一新するカプセルネットワークの最新動向を発表

ブログ

AIを安全で信頼できるものにするためには、まずアルゴリズムの一般化能力を理解することから始める

ディープラーニングの父ヒントン氏が、人工知能を一新するカプセルネットワークの最新動向を発表

ウルトラマンの顔を平手打ちしろ、GPT-4 は今年は去年よりも怠惰だ!ネットユーザーによるオンラインテスト結果

AIとIoTの完璧な組み合わせ

ハギングフェイスCEOが2024年のAI業界の6つの大きな変化を予測！

AI モデルの「アウトソーシング」をやめましょう!新しい研究によると、機械学習モデルのセキュリティを弱める「バックドア」の一部は検出できないことが判明した。

ロボットは「職業を変える」、新しいトレンドは新しい機会をもたらす

推薦する

微分可能アーキテクチャ検索DARTSより10倍高速な、Fourth Paradigmが最適化されたNASアルゴリズムを提案

スループットが5倍に向上、バックエンドシステムとフロントエンド言語を共同設計するLLMインターフェースが登場

Uni-TTS音声合成モデルのアップグレード：1つの音声、複数の言語、高忠実度、高効率

顔認識技術はスマート建設現場やスマートコミュニティにどのようなメリットをもたらすのでしょうか?

最も人気のある 5 つの AI プログラミング言語

AIプロジェクトでKubernetesを使用する方法

AIと宇宙技術が日常生活をどう改善するか

製造および自動化アプリケーション向けの人工知能技術の選び方

Python の高レベル自然言語処理ライブラリである SpaCy は、世界最速の構文解析ツールとして知られています。