大きなモデルをベンチマークに騙されないでください!テストセットが事前トレーニングにランダムに挿入され、スコアが人為的に高くなり、モデルが愚かになる

大きなモデルをベンチマークに騙されないでください!テストセットが事前トレーニングにランダムに挿入され、スコアが人為的に高くなり、モデルが愚かになる

「大きなモデルがベンチマークによって台無しにされないようにしてください。」

これは、中国人民大学情報学院、高陵人工知能学院、イリノイ大学アーバナ・シャンペーン校による新しい研究のタイトルです。

調査では、ベンチマークからの関連データがモデルのトレーニングに誤って使用されることがますます一般的になっていることが判明しました。

これは、事前トレーニング コーパスに公開テキスト資料が多数含まれており、評価ベンチマークがこの情報に基づいて構築されるため、避けられません。

現在、大規模なモデルがより多くの公開データを収集しようとしているため、問題は拡大しています。

ご存知のとおり、このようなデータの重複によって生じる損害は非常に深刻です。

これにより、一部のモデルのテスト スコアが膨らむだけでなく、モデルの一般化能力が低下し、無関係なタスクでのパフォーマンスが急激に低下することになります。実際のアプリケーションでは、大規模なモデルに「損害」を与える可能性もあります。

そこで、本研究では正式に警告を発し、複数のシミュレーションテストを通じて実際に誘発される可能性のある危険性を検証しました。

大規模モデルでは「質問の見逃し」は危険である

この研究では主に、極端なデータ漏洩状況をシミュレートすることで、大規模モデルを観察することの影響をテストしました。

データが漏洩する極端な方法は 4 つあります。

  • MMLUトレーニングセットの使用
  • MMLUを除くすべてのテストベンチマークのトレーニングセットを使用する
  • すべてのトレーニングセットとテストプロンプトを使用する
  • すべてのトレーニング セット、テスト セット、テスト プロンプトを使用します(これは最も極端なケースであり、実験シミュレーションのみを目的としており、通常の状況では発生しません)

その後、研究者らは4つの大規模モデルに「毒を注入」し、さまざまなベンチマークでそのパフォーマンスを観察し、主に質問への回答、推論、読解などのタスクにおけるパフォーマンスを評価した。

使用されるモデルは次のとおりです。

  • GPT-Neo(13億)
  • φ1.5(1.3B)
  • オープンラマ(3B)
  • LLaMA-2 (7B)

LLaMA(13B/30B/65B)も対照群として使用されました。

結果は、大規模モデルの事前トレーニング データに特定の評価ベンチマークのデータが含まれている場合、この評価ベンチマークではパフォーマンスが向上しますが、他の無関係なタスクではパフォーマンスが低下することを示しています。

たとえば、MMLU データセットでトレーニングした後、複数の大規模モデルの MMLU テストのスコアは向上しましたが、常識ベンチマーク HSwag と数学ベンチマーク GSM8K ではスコアが低下しました。

これは、大規模モデルの一般化能力が低下することを示唆しています。

一方、無関係なテストで高得点を獲得してしまう可能性もあります。

上に示したように、ビッグモデルを「ポイズニング」するために使用された 4 つのトレーニング セットには、少量の中国語データしか含まれていません。ただし、ビッグモデルが「ポイズニング」された後、C3 (中国語ベンチマーク テスト) のスコアはすべて高くなりました。

この増加は不合理です。

この種のトレーニング データの漏洩により、モデルのテスト スコアが大規模なモデルのパフォーマンスを異常に上回る可能性もあります。

たとえば、phi-1.5 (1.3B) は、前者の 50 倍のサイズである RACE-M および RACE-H で LLaMA65B よりも優れています。

しかし、このようなスコアの増加は意味がなく、単なる不正行為です。

さらに深刻なのは、データが漏洩していないタスクでも影響を受け、パフォーマンスが低下することです。

下の表からわかるように、コードタスク HEval では、両方の大規模モデルのスコアが大幅に低下しました。

同時に、データが漏洩した後、大規模モデルの微調整の改善は漏洩前よりもはるかに少なくなりました。

この研究では、データの重複/漏洩が発生するシナリオのさまざまな可能性を分析します。

たとえば、大規模なモデルの事前トレーニング コーパスとベンチマーク テスト データでは公開テキスト (Web ページ、論文など) が使用されるため、重複は避けられません。

さらに、現在、大規模なモデル評価はローカルで実行されるか、API 呼び出しを通じて結果が取得されます。この方法では、異常な数値の増加を厳密にチェックすることはできません。

現在の大規模モデルの事前トレーニング コーパスは、すべての関係者によって中核的な秘密とみなされており、外部から評価することはできません。

これにより、大型モデルが誤って「毒殺」される事態が発生しました。

では、この問題を回避するにはどうすればよいでしょうか?研究チームもいくつかの提案を行った。

どうすれば回避できるでしょうか?

研究チームは3つの提案をしました。

まず、実際にはデータの重複を完全に回避することは難しいため、大規模なモデルは複数のベンチマークを使用してより包括的に評価する必要があります。

第二に、大規模なモデル開発者は、データを鈍感化し、トレーニング コーパスの詳細な構成を公開する必要があります。

3 番目に、ベンチマーク管理者には、ベンチマーク データのソースを提供し、データ汚染のリスクを分析し、より多様なプロンプトを使用して複数の評価を実施する必要があります。

しかし、研究チームは、この研究にはまだ一定の限界があることも指摘した。たとえば、さまざまな程度のデータ漏洩の体系的なテストは行われておらず、事前トレーニング中のシミュレーションではデータ漏洩が直接導入されていませんでした。

この研究は、中国人民大学情報学院、高陵人工知能学院、イリノイ大学アーバナ・シャンペーン校の数名の学者によって共同で実施されました。

研究チームには、データマイニング分野の大物である温継栄氏と韓佳偉氏という2人の人物がいました。

温吉栄教授は現在、中国人民大学高陵人工知能学院の学長および中国人民大学情報学院の学長を務めています。主な研究方向は、情報検索、データマイニング、機械学習、大規模ニューラルネットワークモデルのトレーニングと応用です。

Han Jiawei教授はデータマイニング分野の専門家です。現在はイリノイ大学アーバナ・シャンペーン校のコンピュータサイエンス学部の教授であり、Association for Computing Machinery のフェロー、IEEE のフェローでもあります。

論文アドレス: https://arxiv.org/abs/2311.01964.

<<: 

>>:  自動運転におけるトランスフォーマーベースのモデルとハードウェアアクセラレーションの分析

ブログ    
ブログ    

推薦する

機械学習に基づくユーザーエンティティ行動分析技術のアカウント異常検知への応用

企業ビジネスの継続的な拡大と電子化の発展に伴い、企業独自のデータや負荷データが急増し始めています。し...

機械学習は、足を上げることから敷居に落ちることまで行います

突然、AI 時代に入ったようです。裏では、多くの友人が、来たる All in AI を迎えるために、...

教育に人工知能を使う理由

教師のアシスタントとして、また生徒のガイドとして、教育における人工知能は教育業界全体を変革することが...

推奨アルゴリズムコレクション(パート2) - SVDとCB

[[331259]] 【51CTO.comオリジナル記事】 1. はじめに前回の記事でレコメンデー...

人工知能がフィットネス業界にもたらすイノベーション:AIパーソナルトレーナーの登場

デジタル技術によって変革されない業界を見つけるのは難しいですが、適応型セクターも例外ではありません。...

AIとデータ分析を活用してデータを収益化する4つの手法

ビジネスにとってのデータの経済的価値を概念化したり直接測定したりすることは困難です。多くの経営者は、...

【ビッグネームがやってくる、エピソード10】柔軟なビッグデータクラウド分析プラットフォームを構築するためのハードルはゼロ

[51CTO.com からのオリジナル記事] ビッグデータとビッグデータ分析は、現在、企業の注目の的...

人工知能の急速な発展は人間に取って代わるのでしょうか?

[[347812]]現在の人工知能技術の発展は、主にコンピュータを媒体として活用し、自動化技術の発...

ロボットは人工知能技術に基づいて人間の表情を作る

信頼関係を築く上で、私たちの表情が果たす役割は非常に大きいにもかかわらず、ほとんどのロボットの顔はプ...

データ注釈サービスのアウトソーシングによって AI モデルはどのように強化されるのでしょうか?

人工知能 (AI) と機械学習 (ML) の分野では、基礎はデータにあります。データの品質、精度、深...

米連邦裁判所、AIが生成した芸術作品は著作権で保護できないと判決

米連邦地方裁判所のベリル・A・ハウエル判事は金曜日、AIによって生成された芸術作品は著作権保護を受け...

まだ分​​からない?約20以上の自動運転データセット、ランキング、ベンチマークのコレクション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...