TabR: 検索拡張により、深層学習は表形式データで勾配ブースティング モデルを上回るパフォーマンスを発揮できるようになりますか?

TabR: 検索拡張により、深層学習は表形式データで勾配ブースティング モデルを上回るパフォーマンスを発揮できるようになりますか?

これは7月に発表された新しい論文で、深層学習が表形式データにおける勾配強化モデルを上回ることを可能にすることを目的として、自然言語処理を使用した検索拡張技術を提案しています。

検索強化は NLP の研究方向ですが、検索強化を導入した表形式のディープラーニング モデルの現在の実装では、検索ベースでないモデルと比較して改善がほとんど見られません。そこで論文の著者らは、注意に似た検索コンポーネントを追加することで既存のモデルを改良した新しい TabR モデルを提案しました。この注意メカニズムの詳細により、表形式のデータを使用するタスクのパフォーマンスが大幅に向上すると言われています。 TabR モデルは、平均して表形式データでは他の DL モデルよりも優れており、いくつかのデータセットで新しい標準を設定し、特に GBDT に適していると一般的に考えられているデータセットでは、GBDT モデルを上回る場合もあります。

タブR

表形式のデータセットは通常、特徴とラベルのペア {(xi, yi)} として表されます。ここで、xi と yi はそれぞれ i 番目のオブジェクトの特徴とラベルです。一般的に、タスクにはバイナリ分類、マルチクラス分類、回帰の 3 つの主な種類があります。

表形式のデータの場合、データセットをトレーニング、検証、テストの部分に分割し、モデルは「入力」または「ターゲット」オブジェクトの予測を行います。検索技術を使用する場合、検索は「コンテキスト候補」または「候補」のセットに対して実行され、検索されるオブジェクトは「コンテキスト オブジェクト」または単に「コンテキスト」と呼ばれます。すべての入力オブジェクトに対して同じ候補オブジェクトのセットが使用されます。

この論文の実験設定には、検証セットのパフォーマンスに基づいたハイパーパラメータの調整と早期停止を必要とする調整および評価プロトコルが含まれています。次に、15 個のランダム シードを平均したテスト セットで最適なハイパーパラメータがテストされ、アルゴリズムの比較では標準偏差が考慮されました。

著者らの目標は、従来のフィードフォワード ネットワークに検索機能を統合することです。このプロセスでは、ターゲット オブジェクトとそのコンテキスト候補をエンコーダーに渡し、次にターゲット オブジェクトの検索コンポーネントの表現を渡し、最後に予測子が予測を行います。

エンコーダー モジュールと予測モジュールは作業の焦点では​​ないため、単純なままになっています。検索モジュールは、ターゲット オブジェクトの表現だけでなく、候補オブジェクトの表現とラベルに対しても動作します。このモジュールは、注意メカニズムの一般化されたバージョンとして考えることができます。

このプロセスにはいくつかのステップが含まれます。

  • エンコーダーに少なくとも 1 つのブロックが含まれている場合、表現は正規化されます。
  • ターゲット オブジェクトとの類似性に基づいてコンテキスト オブジェクトを定義します。
  • ソフトマックス関数に基づいてコンテキスト オブジェクトの類似性に重みを割り当てます。
  • コンテキスト オブジェクトの値を定義します。
  • 値と重みを使用して重み付け集計を出力します。

コンテキスト サイズは 96 という大きな値に設定され、softmax 関数によって有効なコンテキスト サイズが自動的に選択されます。

検索モジュールは最も重要な部分です

著者らは、検索モジュール、具体的には類似性モジュールと値モジュールのさまざまな実装を調査します。また、次の手順で最終モデルがどのように取得されるかについても説明します。

1. 著者らは、従来の注意の類似性モジュールと価値モジュールを評価し、その構成が多層パーセプトロン (MLP) に類似していることを発見し、そのため検索コンポーネントの使用を正当化できないことを明らかにしました。

2. その後、研究者らはコンテキスト ラベルを値モジュールに追加しましたが、これによってパフォーマンスが向上しなかったため、従来の注意の類似性モジュールがボトルネックになっている可能性があることが示唆されました。

3. 類似性モジュールを改善するために、著者らはクエリの概念を削除し、ドット積を L2 距離に置き換えました。この調整により、いくつかのデータセットでパフォーマンスが大幅に向上しました。

4. 値モジュールも、最近提案された DNNR (回帰問題用の kNN アルゴリズムの一般化バージョン) に触発されて改良されました。新しい値モジュールにより、パフォーマンスがさらに向上します。

5. 最後に、著者はモデル TabR を作成します。類似性モジュールのスケーリング項を省略し、ターゲット オブジェクトを独自のコンテキストに含めないようにすると (交差注意を使用)、平均的にはより良い結果が得られます。

結果として得られる TabR モデルは、表形式の検索に基づく深層学習の問題に対する堅牢なアプローチを提供します。

著者らは、TabR モデルの 2 つの主な制限についても強調しています。

すべての検索強化モデルと同様に、予測に実際のトレーニング オブジェクトを使用すると、プライバシーや倫理的な懸念など、アプリケーションの観点からいくつかの問題が発生する可能性があります。

TabR の検索コンポーネントは、以前の作業よりも効率的ですが、かなりのオーバーヘッドが発生します。そのため、非常に大規模なデータセットを処理するには、効果的に拡張できない可能性があります。

実験結果

TabR を既存の検索強化ソリューションおよび最先端のパラメトリック モデルと比較します。完全に構成された TabR に加えて、特徴埋め込みを使用せず、線形エンコーダーとブロック予測子のみを備えた簡易バージョンの TabR-S も使用しました。

フルパラメータのディープラーニング モデルとの比較では、TabR がいくつかのデータセットでほとんどのモデルよりも優れており、MI データセットを除くすべてのデータセットで競争力があることが示されています。多くのデータセットにおいて、多層パーセプトロン (MLP) よりも大幅な改善が実現します。

GBDT モデルと比較すると、調整された TabR はいくつかのデータセットで大幅な改善を示し、他のデータセット (MI データセットを除く) でも競争力を維持しており、TabR の平均パフォーマンスも GBDT モデルよりも優れています。

要約すると、TabR は表形式データの問題に対する強力なディープラーニング ソリューションとしての地位を確立し、優れた平均パフォーマンスを示し、いくつかのデータセットで新しいベンチマークを設定しました。検索ベースのアプローチは優れた可能性を示しており、一部のデータセットでは勾配ブースティング決定木を大幅に上回ることができます。

いくつかの研究

1. TabRのトレーニングを高速化するためにコンテキストをフリーズする

TabR の元の実装では、すべての候補をエンコードし、各トレーニング バッチの類似性を計算する必要があるため、大規模なデータセットのトレーニングは遅くなる可能性があります。著者らは、300 万以上のオブジェクトを含む完全な「天気予報」データセットで TabR をトレーニングするには 18 時間以上かかると述べています。

著者らは、トレーニング中、平均トレーニング オブジェクトのコンテキスト (つまり、上位 m 個の候補オブジェクトと類似度モジュール S に従ったそれらの分布) は安定する傾向があり、最適化の機会を提供すると指摘しています。一定数のエポックが経過すると、彼らは「コンテキスト フリーズ」を提案しました。これは、すべてのトレーニング オブジェクトの最新のコンテキストが最後にもう一度計算され、残りのトレーニングに再利用されるというものです。

このシンプルな手法により、メトリックに大きな損失を与えることなく TabR のトレーニングを高速化できます。前述の完全な「天気予報」データセットでは、競争力のある RMSE 値を維持しながら、ほぼ 7 倍の高速化 (トレーニング時間を 18 時間 9 分から 3 時間 15 分に短縮) を達成しています。

2. 再トレーニングなしで新しいトレーニングデータでTabRを更新する(予備調査)

実際のシナリオでは、機械学習モデルがすでにトレーニングされた後に、新しい、見たことのないトレーニング データが受信されることがよくあります。著者らは、新しいデータを候補検索セットに追加することで、再トレーニングを必要とせずに新しいデータを組み込む TabR の能力をテストしました。

彼らは完全な天気予測データセットを使用してこのテストを実行しました。結果は、オンライン更新によって新しいデータをトレーニング済みの TabR モデルに効果的に組み込むことができることを示しています。このアプローチでは、データのサブセットでモデルをトレーニングし、完全なデータセットからモデルを取得することで、TabR をより大きなデータセットに拡張できます。

3. 検索コンポーネントでXGBoostを強化する

著者らは、TabR と同様の検索コンポーネントを組み込むことで、XGBoost のパフォーマンスを向上させようとしました。このアプローチでは、元の特徴空間内の特定の入力オブジェクトに最も近い 96 個のトレーニング オブジェクト (TabR のコンテキスト サイズに一致) を見つけます。次に、これらの最近傍の特徴とラベルを平均化し、回帰タスクではラベルをそのまま取得し、分類タスクでは単一のエンコーディングに変換します。

これらの平均データは、ターゲット オブジェクトの特徴とラベルと連結され、XGBoost の新しい入力ベクトルを形成します。ただし、この戦略では XGBoost のパフォーマンスは大幅に向上しませんでした。隣人の数を変えてみたとしても、大きな改善は得られませんでした。

要約する

ディープラーニング モデルは表形式データにおける勾配強化モデルを上回っておらず、TabR は引き続きこの方向で取り組んでいます。

<<:  人工知能は労働力不足の重要な解決策とみられる

>>:  AIプログラミングは単なる空論なのでしょうか?調査: ChatGPT のソフトウェア開発に関する質問への回答エラー率は 50% を超える

ブログ    
ブログ    
ブログ    

推薦する

...

XiaoIce がクローンを正式にリリース: すでに年間 100 万元を稼いだ人もいます!

AIの助けを借りれば、月に10万元、年に100万元稼ぐことができます。想像できますか?信じないでく...

たった 10 行のコードでディープラーニングを実行できますか? PaddlePaddleフレームワークの高レベルAPIでAIを簡単に操作しよう

高レベルAPIとはディープラーニングは、人工知能時代の中核技術として、近年、学術界と産業界の両方でま...

...

AIが本当に成功する方法

[[412385]]人工知能は現在、特に自動運転車でより広く深く活用されています。人工知能を使用して...

CCTV が顔認識ルーチンを公開、プライバシーとセキュリティをどう保護するか?

現在、インターネットやビッグデータなどの急速な発展と、Internet of Everythingの...

74KBの写真も高解像度です。Googleはニューラルネットワークを使用して新しい画像圧縮アルゴリズムを作成しました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

ドローンやAIなどハイテクが大学入試特別編をエスコート!

昨日(7月7日)、流行病の影響で延期されていた2020年度大学入試センター試験が正式に始まりました。...

ルカン、アンドリュー・ン、その他370人以上が共同書簡に署名:AIの厳格な管理は危険、オープン化がその解毒剤

近年、AIをどのように監督するかについての議論はますます白熱しており、有力者の意見も大きく異なってい...

機械学習エンジニアが知っておくべきアルゴリズムトップ10

機械学習/人工知能のサブフィールドがここ数年で人気が高まってきたことは間違いありません。ビッグデータ...

EUのAI法案は企業に厳しい規則と巨額の罰金をもたらす

EUが長らく議論されてきたEU AI法案を前進させ、AIの使用に関するガードレールを導入しようと最近...

GitHubのレポートによると、米国のプログラマーの92%がAIツールを使用している

オンラインコードホスティングプラットフォームのGitHubは最近、従業員1,000人以上の米国企業を...