モジュール式の機械学習システムで十分でしょうか?ベンジオの教師と生徒が答えを教えてくれます

モジュール式の機械学習システムで十分でしょうか?ベンジオの教師と生徒が答えを教えてくれます

ディープラーニングの研究者は、神経科学と認知科学からインスピレーションを得ています。隠れユニットや入力方法からネットワーク接続やネットワーク アーキテクチャの設計まで、多くの画期的な研究は脳の動作戦略を模倣することに基づいています。近年、モジュール性とアテンションが人工ネットワークで頻繁に組み合わせて使用​​され、素晴らしい成果を上げていることは驚くべきことではありません。

実際、認知神経科学の研究では、大脳皮質が知識をモジュール方式で表現し、異なるモジュールが相互に通信し、注意機構がコンテンツを選択することが示されており、これが前述のモジュール性と注意の組み合わせです。最近の研究では、脳内のこの種のコミュニケーションが深層ネットワークの帰納的バイアスに影響を及ぼす可能性があることが示唆されています。これらの高レベル変数間の依存関係の希薄性により、知識は可能な限り独立した再結合可能な断片に分割され、学習がより効率的になります。​

最近の多くの研究はこのようなモジュール式アーキテクチャに依存していますが、研究者が使用するトリックやアーキテクチャの変更が多数あるため、真に使用可能なアーキテクチャの原則を分析することが困難になっています。

機械学習システムは、よりスパースでモジュール化されたアーキテクチャの利点を徐々に示しており、これは優れた一般化パフォーマンスをもたらすだけでなく、分布外 (OoD) 一般化、スケーラビリティ、学習速度、解釈可能性の向上にもつながります。このようなシステムが成功するための鍵は、現実世界の設定で使用されるデータ生成システムは疎に相互作用する部分で構成されていると考えられており、同様の帰納的バイアスをモデルに与えることが役立つということです。しかし、これらの現実世界のデータの分布は複雑かつ未知であるため、この分野ではこれらのシステムの厳密な定量的評価が不足しています。

カナダのモントリオール大学の Sarthak Mittal、Yoshua Bengio、Guillaume Lajoie が執筆した論文では、単純で既知のモジュール データ分布を使用して、一般的なモジュール アーキテクチャの包括的な評価が行われました。この研究では、モジュール性とスパース性の利点を強調し、モジュール式システムの最適化における課題についての洞察を明らかにしています。第一著者であり責任著者でもある Sarthak Mittal 氏は、Bengio 氏と Lajoie 氏の修士課程の学生です。

  • 論文アドレス: https://arxiv.org/pdf/2206.02713.pdf
  • GitHub アドレス: https://github.com/sarthmit/Mod_Arch

具体的には、この研究では、Rosenbaum らによる分析を拡張し、モジュール型アーキテクチャの共通コンポーネントを評価、定量化、分析する方法を提案しています。この目的のために、本研究では、モジュール型ネットワークの有効性を調査することを目的とした一連のベンチマークとメトリックを開発します。これにより、現在のアプローチがどこで成功しているかだけでなく、それらのアプローチがいつどのように失敗しているかを特定するのに役立つ貴重な洞察が明らかになります。

この研究の貢献は次のように要約できます。

  • この研究では、確率的選択ルールに基づいてベンチマークタスクと指標を開発し、ベンチマークと指標を使用して、モジュールシステムにおける 2 つの重要な現象である崩壊と特化を定量化します。
  • この研究では、共通のモジュール性誘導バイアスを抽出し、共通のアーキテクチャ特性 (モノリシック、モジュラー、モジュラー オプ、GT モジュラー モデル) を抽出するように設計されたさまざまなモデルにわたって体系的に評価します。
  • 研究では、タスクに潜在的なルールが多数ある場合、モジュール システムの特化によってモデルのパフォーマンスが大幅に向上する可能性があるが、ルールが少数の場合はそうではないことが判明しました。
  • 研究では、標準的なモジュールシステムは、正しい情報に集中する能力と専門化する能力が最適ではないことが多く、追加の帰納的バイアスが必要であることが示唆されていることが判明しました。

定義 / 用語

本稿では、さまざまなモジュール システムが、通常データと呼ばれる合成データ生成プロセスを使用して定式化された共通タスクをどのように実行できるかを調査します。これらは、(1)ルールとこれらのルールがどのようにタスクを形成するか、(2)モジュールとこれらのモジュールがどのように異なるモデルアーキテクチャを採用するか、(3)特殊化とモデルがどのように評価されるかなど、主要なコンポーネントの定義を紹介します。詳細な設定は以下の図1に示されています。

ルール。モジュラー システムを適切に理解し、その長所と短所を分析するために、さまざまなタスク要件をきめ細かく制御できる包括的なセットアップを検討します。特に、以下の式 1-3 に示すデータ生成分布に対する、ルールと呼ばれる操作を学習する必要があります。

上記の分布を前提として、ルールをそのエキスパートとして定義します。つまり、ルール r は p_y(·|x, c = r) として定義されます。ここで、c はコンテキストを表すカテゴリ変数であり、x は入力シーケンスです。

タスク。タスクは、式 1-3 に示す一連のルール (データ生成分布) によって記述されます。 {p_y(· | x, c)}_cの異なるセットは異なるタスクを意味します。研究者らは、与えられた数のルールについて、特定のタスクに対する偏りを排除するために、複数のタスクでモデルをトレーニングしました。

モジュール。モジュラー システムは一連のニューラル ネットワーク モジュールで構成され、各モジュールが全体の出力に貢献します。これは次の関数形式で確認できます。

ここで、y_m は出力を表し、p_m は m 番目のモジュールのアクティブ化を表します。

モデルアーキテクチャ。モデル アーキテクチャは、モジュラー システムの各モジュールまたはモノリシック システムの単一モジュールに対して選択するアーキテクチャを記述します。この論文では、研究者らは、多層パーセプトロン (MLP)、マルチヘッドアテンション (MHA)、およびリカレントニューラルネットワーク (RNN) の使用を検討しました。重要なのは、ルール (またはデータ生成分布) が MLP ベースのルールなどのモデル アーキテクチャに適合されていることです。

データ生成プロセス

研究者の目標は合成データを通じてモジュールシステムを調査することであるため、上記のルールスキームに基づいてデータ生成プロセスを詳しく説明します。具体的には、ルール内のさまざまなモジュールがさまざまな専門家に特化できることを期待して、単純な専門家混合 (MoE) スタイルのデータ生成プロセスを使用しました。

MLP、MHA、RNN という 3 つのモデル アーキテクチャに適用可能なデータ生成プロセスについて説明します。さらに、各タスクには回帰と分類の 2 つのバージョンがあります。

MLPP。研究者らは、モジュラー MLP システムに基づく学習に適したデータ スキームを定義しました。この合成データ生成方式では、データ サンプルは 2 つの独立した数値と、何らかの分布からサンプリングされた通常の選択から構成されます。異なるルールによって、2 つの数値の異なる線形結合が生成され、出力が生成されます。つまり、線形結合の選択は、以下の式 4-6 に示すように、ルールに従って動的にインスタンス化されます。

MHA。ここでは、モジュラー MHA システムでの学習用に調整されたデータ スキームを定義します。そのため、彼らは、各ルールが異なる検索、取得コンセプト、および取得された情報の最終的な線形結合で構成されるという特性を持つデータ生成分布を設計しました。研究者たちはこのプロセスを次の式7~11で数学的に説明しました。

RNNN。周期的システムの場合、研究者は、複数のルールのうちの 1 つを任意の時点でトリガーできる線形動的システムのルールを定義しました。数学的には、このプロセスは次の式 12-15 で示されます。

モデル

これまでの研究では、エンドツーエンドでトレーニングされたモジュール式システムは、特に分散環境においてモノリシックシステムよりも優れていると主張しています。しかし、これらのモジュール式システムの利点や、データ生成分布に基づいて実際に特化しているかどうかについて、詳細かつ徹底的な分析は行われていません。

そのため、研究者は、異なるレベルの特殊化を可能にするモノリシック、モジュラー、モジュラー オペレーション、GT モジュラーの 4 種類のモデルを検討しました。以下の表 1 にこれらのモデルを示します。

モノリシック。モノリシック システムは、データ セット全体 (x、c) を入力として受け取り、それに基づいて y^ を予測する大規模なニューラル ネットワークです。システム内に明示的に組み込まれたモジュール性またはスパース性は、帰納的バイアスを示さず、タスクを解決するために必要な関数形式を学習するためにバックプロパゲーションに完全に依存します。

モジュラー。モジュラー システムは多数のモジュールで構成され、各モジュールは特定のアーキテクチャ タイプ (MLP、MHA、または RNN) のニューラル ネットワークです。各モジュールmはデータ(x, c)を入力として受け取り、出力yˆ_mと信頼スコアを計算し、モジュール間で活性化確率p_mに正規化します。

モジュラーオペレーション。モジュラー オペレーティング システムはモジュラー システムと非常によく似ていますが、違いが 1 つあります。モジュール m のアクティベーション確率 p_m を (x, c) の関数として定義する代わりに、アクティベーションがルールコンテキスト C によってのみ決定されるようにします。

GT-モジュラー。真理値モジュラー システムは、オラクル ベンチマーク、つまり完全に特殊化されたモジュラー システムとして機能します。

研究者は、モノリシックから GT モジュラーまで、モデルにはモジュール性とスパース性の帰納的バイアスがますます含まれるようになっていることを示しています。

測定

モジュール式システムを確実に評価するために、そのようなシステムのパフォーマンス上の利点を測定するだけでなく、崩壊と特殊化という 2 つの重要な形式で評価する一連のメトリックを提案します。

パフォーマンス。最初の評価メトリック セットは、分布内および分布外 (OoD) 設定でのパフォーマンスに基づいており、さまざまなモデルがさまざまなタスクでどのように機能するかを反映しています。分類設定の場合、研究者は分類エラーを報告し、回帰設定の場合、研究者は損失を報告します。

崩壊。研究者らは、モジュール式システムが遭遇する崩壊の量(つまり、モジュールが十分に活用されていない程度)を定量化するために、Collapse-Avg と Collapse-Worst という一連の指標を提案しました。下の図 2 は、モジュール 3 が使用されていない例を示しています。

専門分野。崩壊指標を補完するために、モジュールシステムによって達成される特化の度合いを定量化する(1)アライメント、(2)適応、(3)逆相互情報量の一連の指標を提案する。

実験

下の図は、GT-Modular システムがほとんどの場合に最適であること (左) を示しており、特化が有益であることを示しています。また、標準トレーニングでエンドツーエンドでトレーニングされたモジュラー システムはモノリシック システムよりも優れていることがわかりますが、その差は大きくありません。これら 2 つの円グラフを合わせると、エンドツーエンドでトレーニングされた現在のモジュール システムは適切な特化を達成しておらず、したがって大部分が最適ではないことがわかります。

次に、この調査では、特定のアーキテクチャの選択肢に注目し、増加するルールにわたってそのパフォーマンスと傾向を分析します。

図 4 は、完全に特化されたシステム (GT-Modular) はメリットをもたらす一方で、典型的なエンドツーエンドのトレーニング済みモジュラー システムは最適ではなく、特にルールの数が増えると、これらのメリットを実現できないことを示しています。さらに、このようなエンドツーエンドのモジュラー システムはモノリシック システムよりも優れたパフォーマンスを発揮することが多いものの、その利点は通常わずかです。

図 7 では、他のすべての設定におけるさまざまなモデルのトレーニング パターンの平均も表示されており、平均には分類エラーと回帰損失が含まれています。適切な専門化はパフォーマンスの向上だけでなく、トレーニングの高速化にもつながることがわかります。

次の図は、Collapse-Avg と Collapse-Worst という 2 つの崩壊メトリックを示しています。さらに、次の図は、ルールの数が異なるさまざまなモデルの 3 つの特殊化メトリック、アライメント、適応、逆相互情報量を示しています。

<<:  AIRankingsが世界の大学AIランキングを発表

>>:  世界初、AIによる豚のクローン作成に成功!南開大学がやった

ブログ    
ブログ    
ブログ    

推薦する

次世代スマートビルディング:データ駆動型施設はより安価で環境に優しいものになる

今日のスマート ビルは、各部屋や各階で何が起こっているかを把握し、エネルギー使用を最適化して持続可能...

地球は思考しており、人間は単なるニューロンです。科学者は初めて「惑星知性」を提唱した

生態圏が進化すると、地球は独自の生命を獲得しました。惑星が独自の生命を持つことができるなら、独自の知...

人工知能をうまく実装するにはどうすればよいでしょうか?

人工知能 (AI) と機械学習 (ML) は、ビジネスの流行語から、より広範な企業での導入へと移行し...

人工知能 (AI) プロジェクトの失敗: 人材不足に対処する方法

適切な技術人材の採用は、企業組織による人工知能 (AI) の導入に対する大きな障壁となっています。最...

すべてのデータ サイエンティストに必要な 3 つのシンプルな異常検出アルゴリズム

外れ値検出の詳細と、Python で 3 つのシンプルで直感的かつ強力な外れ値検出アルゴリズムを実装...

K2 K2、上海交通大学チームが70億パラメータの地球科学言語モデルを発表

地球科学は、岩石、鉱物、土地の特性を研究するだけでなく、地球の気候、海洋、大気、生態系などの現象と原...

FMCW レーダー位置認識をエレガントに実装する方法 (IROS2023)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

現時点で最も包括的なPythonの採用方針

Pythonは、コンパイル速度が超高速なオブジェクト指向プログラミング言語です。誕生から25年が経ち...

シャッフルアルゴリズムの2つの実装の比較

方法1: ランダム生成まず、非常に一般的な方法であるランダム生成法(私が名付けました)を紹介します。...

外国企業が人間の介入を必要としないAI犬訓練機を開発

海外メディアによると、Companion Labsという企業がサンフランシスコの動物保護団体SPCA...

Java プログラミング スキル - データ構造とアルゴリズム「非再帰的バイナリ検索」

[[396063]]基本的な紹介1. バイナリ検索は、順序付けられたシリーズ(数字や文字など)の検...

AIセキュリティに関する隠れた懸念:ディープフェイク技術への課題と対応

1. はじめに近年、人工知能技術は活発な発展の傾向を示し、新たな科学技術革命と産業変革をリードする戦...

IT 労働者の皆さん、AI があなたの仕事を「奪う」ためにやって来ています!今回はデータセンターからスタートします

[[349442]]人工知能に関する議論は現在、自動運転車、チャットボット、デジタルツイン、ロボット...

...

銀行、金融、保険業界に革命をもたらす主要技術

不安定な市場環境、規制上のハードル、そしてBrexitは、好況時でも最も回復力のある企業にさえ課題を...