一般化の危機! LeCunは質問を公開しました: テストセットとトレーニングセットは決して関連していません

一般化の危機! LeCunは質問を公開しました: テストセットとトレーニングセットは決して関連していません

[[431567]]

長い間、テスト セットで優れたパフォーマンスを発揮するモデルは、一般化のパフォーマンスも優れているはずだという見方がありましたが、これは本当にそうでしょうか? LeCun 氏のチームは最近、高次元空間ではテスト セットとトレーニング セットに関係がなく、モデルは外挿のみを実行して内挿を実行しなかったことを実験によって証明した論文を発表しました。つまり、トレーニング セットでのモデルのパフォーマンスはテスト セットのパフォーマンスとはまったく関係がないということです。この場合、チャートをスワイプしても意味がないのではないでしょうか?

補間と外挿は、機械学習と関数近似における 2 つの重要な概念です。

機械学習では、テストサンプルの入力がトレーニングセットの入力の範囲内にある場合のモデル予測処理を「内挿」と呼び、範囲外にある場合のモデル予測処理を「外挿」と呼びます。

ディープラーニングの研究は常に 2 つの概念に依存してきました。

  1. 最先端のアルゴリズムが非常にうまく機能する理由は、トレーニング データを正しく補間できるためです。
  2. タスクとデータセット間では内挿のみが行われ、外挿は行われません。

しかし、受賞歴のある Yann LeCun 氏のチームは、これら 2 つの概念が間違っていることを公然と疑問視する論文を arxiv に投稿しました。

彼らの論文では、理論的にも経験的にも、合成データと実データの両方において、データ多様体の基本的な固有次元に関係なく、高次元空間 (> 100) では補間が発生しないことがほぼ確実であることを示しています。

内在次元とは、次元削減またはデータ圧縮中にデータの特性を最大限に保持するために保持する必要がある最小限の特徴を指します。また、データをどの程度圧縮できるかも示します。そのため、どの特徴がデータ セットに最も大きな影響を与えるかを理解する必要があります。

現在の計算能力で処理できる実際のデータ量を考慮すると、新たに観測されたサンプルがこのデータセットの凸包に含まれる可能性は極めて低いと言えます。したがって、彼らは2つの結論に達しました。

  1. 現在使用され研究されているモデルは基本的に外挿です。
  2. これらのモデルによって達成される超人的なパフォーマンスを考えると、外挿メカニズムは必ずしも避けるべきではありませんが、これは一般化パフォーマンスの指標でもありません。

私たちの研究の第一段階は、環境の次元の役割(つまり、データが存在する空間の次元)、基礎となるデータ多様体の固有の次元の役割(つまり、データの最小表現に必要な変数の数)、およびすべてのデータ多様体を含む最小のアフィン部分空間の次元を理解することです。

画像のようなデータは低次元多様体上に存在する可能性が高いため、高次元の周囲空間に関係なく補間が行われると直感的かつ経験的に想定できると主張する人もいるかもしれません。しかし、この直感は誤解を招くものであり、実際には、1 次元多様体のような極端な場合でも、基礎となる多様体の次元は変化しません。

上の図は、補間された領域に新しいサンプルがある確率の変化を説明する際に、対数スケールで見られるデータセット サイズの増加と、500,000 回の試行のモンテ カルロ推定に基づくさまざまな環境空間次元 (d) を示しています。左の図はガウス密度 N(0, Id) からデータをサンプリングし、中央の図は固有次元 1 の非線形連続多様体からデータをサンプリングし、右の図は環境次元が増加しているときに、定数次元 4 のガウス密度のアフィン サブスペースからデータをサンプリングします。

これらの図から、補間領域で一定の確率を維持するためには、基礎となる固有多様体の次元に関係なく、トレーニング セットのサイズが d とともに指数関数的に増加する必要があることがわかります。ここで、d は、データ多様体全体を含む最低次元のアフィン サブスペースの次元です。

いずれの場合も、このデータセットの固有次元は 1 であり、多様体は連続的、非線形、区分的に滑らかであり、単体の走査に対応します。

したがって、補間領域内にある確率を高めるためには、多様体基底次元と周囲空間次元を制御するのではなく、d を制御する必要があると結論付けることができます。

ピクセル空間でのテスト セットの外挿を研究する際、研究者はまず、MNIST、CIFAR、および Imagenet シーケンス セット内のテスト セットのうち補間された状態にあるものの割合を研究しました。

データの次元の影響を把握するために、2 つの戦略から得られた異なる数の次元を使用して比率を計算します。最初の戦略では、画像の中心から特定の数の次元のみを保持します。限られた数の次元のみを考慮しながら、多様体のジオメトリを保持できるという利点があります。2 番目の戦略では、画像を平滑化してサブサンプリングします。多様体の全体的なジオメトリを保持しながら、高周波構造 (画像の詳細) を削除し、情報をより少ない次元に圧縮できるという利点があります。

どちらの場合も、自然画像のデータ多様体ジオメトリにもかかわらず、補間領域内のサンプルを見つけることは、データの次元 d に比べて非常に困難であることがわかります。

次元削減空間でのテスト セット外挿を研究する場合、一連の実験では、非線形または線形の次元削減手法を使用して高次元データセットを視覚化します。使用された次元削減技術が補間情報または外挿情報を保持するかどうかを明確に理解するために、研究者は、d=8,12 の d 次元ハイパーキューブの 2D 頂点で構成されるデータセットを作成しました。

これらのデータセットは、任意のサンプルが他のサンプルと比較して外挿されるという意味で特定的です。そして、これらの頂点を 2 次元で表現するために、8 つの異なる一般的な次元削減手法が使用されます。次元削減法では、補間/外挿情報が失われ、明らかに補間に偏った視覚的な誤解を招くことがわかります。

内挿と外挿は、データセットが与えられた場合に新しいサンプルの位置の直感的な幾何学的特徴付けを提供し、これらの用語は、未知のサンプルに対するモデルのパフォーマンスを予測するための幾何学的プロキシとしてよく使用されます。過去の経験に基づくと、モデルの一般化パフォーマンスはモデルの補間方法に依存するという結論が出ているようです。この記事では、この誤解を実験的に証明します。

また研究者たちは、一般化パフォーマンスの指標として補間と外挿を使用することに特に反対しており、既存の理論的結果と徹底的な実験から、新しいサンプルの補間を維持するためには、データセットのサイズがデータ次元に対して指数関数的に増加する必要があることを示しています。つまり、新しい例はほぼ確実に凸包の外側にあるため、トレーニング セット内でのモデルの動作は、モデルの一般化の程度にほとんど影響を与えません。

この観察は、元のデータ空間を考慮するか、埋め込みを考慮するかに関係なく当てはまります。研究者たちは、これらの観察が、特に高次元データの場合に、一般化特性と一致する、より適切な内挿と外挿の幾何学的定義を構築する扉を開くと考えています。

<<:  商用アプリケーション向けディープラーニング画像キャプション技術

>>:  5300億!巨大言語モデルのパラメータは毎年10倍に増加。新たな「ムーアの法則」が到来か?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ロボットと人工知能の違いは何でしょうか?

テクノロジーの世界では、「ロボット工学」と「人工知能(AI)」という 2 つの用語がしばしば結び付け...

自動運転に関する期限の問題

少し前に、自称メディアスターの板狐仙人が「自動運転のいくつかの期限問題」を発表し、将来の自動運転の実...

人工知能は人間が理解できない量子実験を設計する

[[412058]]北京時間7月19日、量子物理学者のマリオ・クライン氏は、2016年初頭にウィーン...

ディープラーニングにおける8種類の畳み込みを視覚的に理解する

この記事では、ディープラーニングでよく使用される 8 種類の畳み込みについてまとめ、非常に鮮明な方法...

2018年のトップ10の技術開発トレンド:人工知能は応用の「爆発期」に入る

情報技術の調査およびコンサルティング会社であるガートナーは最近、2018 年の戦略的技術開発のトレン...

...

...

工業情報化省がロボット産業の「第14次5カ年計画」を発表:2035年までに指定規模以上の製造業でデジタル化が普及する

12月28日、工業情報化部など各部門は「第14次5カ年計画:インテリジェント製造業発展計画」(以下、...

...

Amazon Web Services は、5 つのステップで企業の生成 AI の実現を支援します。

アマゾンのCEO、アンディ・ジャシー氏はかつて、アマゾン ウェブ サービスの目標は、誰もが大企業と同...

報告書は、2030年までにサイバーセキュリティの分野でAIが人間に取って代わる可能性があると予測している。

新型コロナウイルス肺炎の流行は社会全体の生産と生活に影響をもたらしています。企業は、感染拡大の影響を...

...

一貫性ハッシュアルゴリズムの図

[[380706]]この記事はWeChatパブリックアカウント「Full-Stack Cultiva...

Deep Policy Gradient Algorithm は真の Policy Gradient Algorithm ですか?

深層強化学習は最近大きな成功を収めていますが、安定性の欠如や再現性の低さといった限界もあります。 M...

高性能自動運転ドメインコントローラ設計の主要要素

[[438361]]次世代自動運転システムの設計における反復的な更新は、主に新機能の継続的な反復に反...