大きなモデルをベンチマークに騙されないでください!テストセットが事前トレーニングにランダムに挿入され、スコアが人為的に高くなり、モデルが愚かになる

大きなモデルをベンチマークに騙されないでください!テストセットが事前トレーニングにランダムに挿入され、スコアが人為的に高くなり、モデルが愚かになる

「大きなモデルがベンチマークによって台無しにされないようにしてください。」

これは、中国人民大学情報学院、高陵人工知能学院、イリノイ大学アーバナ・シャンペーン校による新しい研究のタイトルです。

調査では、ベンチマークからの関連データがモデルのトレーニングに誤って使用されることがますます一般的になっていることが判明しました。

これは、事前トレーニング コーパスに公開テキスト資料が多数含まれており、評価ベンチマークがこの情報に基づいて構築されるため、避けられません。

現在、大規模なモデルがより多くの公開データを収集しようとしているため、問題は拡大しています。

ご存知のとおり、このようなデータの重複によって生じる損害は非常に深刻です。

これにより、一部のモデルのテスト スコアが膨らむだけでなく、モデルの一般化能力が低下し、無関係なタスクでのパフォーマンスが急激に低下することになります。実際のアプリケーションでは、大規模なモデルに「損害」を与える可能性もあります。

そこで、本研究では正式に警告を発し、複数のシミュレーションテストを通じて実際に誘発される可能性のある危険性を検証しました。

大規模モデルでは「質問の見逃し」は危険である

この研究では主に、極端なデータ漏洩状況をシミュレートすることで、大規模モデルを観察することの影響をテストしました。

データが漏洩する極端な方法は 4 つあります。

  • MMLUトレーニングセットの使用
  • MMLUを除くすべてのテストベンチマークのトレーニングセットを使用する
  • すべてのトレーニングセットとテストプロンプトを使用する
  • すべてのトレーニング セット、テスト セット、テスト プロンプトを使用します(これは最も極端なケースであり、実験シミュレーションのみを目的としており、通常の状況では発生しません)

その後、研究者らは4つの大規模モデルに「毒を注入」し、さまざまなベンチマークでそのパフォーマンスを観察し、主に質問への回答、推論、読解などのタスクにおけるパフォーマンスを評価した。

使用されるモデルは次のとおりです。

  • GPT-Neo(13億)
  • φ1.5(1.3B)
  • オープンラマ(3B)
  • LLaMA-2 (7B)

LLaMA(13B/30B/65B)も対照群として使用されました。

結果は、大規模モデルの事前トレーニング データに特定の評価ベンチマークのデータが含まれている場合、この評価ベンチマークではパフォーマンスが向上しますが、他の無関係なタスクではパフォーマンスが低下することを示しています。

たとえば、MMLU データセットでトレーニングした後、複数の大規模モデルの MMLU テストのスコアは向上しましたが、常識ベンチマーク HSwag と数学ベンチマーク GSM8K ではスコアが低下しました。

これは、大規模モデルの一般化能力が低下することを示唆しています。

一方、無関係なテストで高得点を獲得してしまう可能性もあります。

上に示したように、ビッグモデルを「ポイズニング」するために使用された 4 つのトレーニング セットには、少量の中国語データしか含まれていません。ただし、ビッグモデルが「ポイズニング」された後、C3 (中国語ベンチマーク テスト) のスコアはすべて高くなりました。

この増加は不合理です。

この種のトレーニング データの漏洩により、モデルのテスト スコアが大規模なモデルのパフォーマンスを異常に上回る可能性もあります。

たとえば、phi-1.5 (1.3B) は、前者の 50 倍のサイズである RACE-M および RACE-H で LLaMA65B よりも優れています。

しかし、このようなスコアの増加は意味がなく、単なる不正行為です。

さらに深刻なのは、データが漏洩していないタスクでも影響を受け、パフォーマンスが低下することです。

下の表からわかるように、コードタスク HEval では、両方の大規模モデルのスコアが大幅に低下しました。

同時に、データが漏洩した後、大規模モデルの微調整の改善は漏洩前よりもはるかに少なくなりました。

この研究では、データの重複/漏洩が発生するシナリオのさまざまな可能性を分析します。

たとえば、大規模なモデルの事前トレーニング コーパスとベンチマーク テスト データでは公開テキスト (Web ページ、論文など) が使用されるため、重複は避けられません。

さらに、現在、大規模なモデル評価はローカルで実行されるか、API 呼び出しを通じて結果が取得されます。この方法では、異常な数値の増加を厳密にチェックすることはできません。

現在の大規模モデルの事前トレーニング コーパスは、すべての関係者によって中核的な秘密とみなされており、外部から評価することはできません。

これにより、大型モデルが誤って「毒殺」される事態が発生しました。

では、この問題を回避するにはどうすればよいでしょうか?研究チームもいくつかの提案を行った。

どうすれば回避できるでしょうか?

研究チームは3つの提案をしました。

まず、実際にはデータの重複を完全に回避することは難しいため、大規模なモデルは複数のベンチマークを使用してより包括的に評価する必要があります。

第二に、大規模なモデル開発者は、データを鈍感化し、トレーニング コーパスの詳細な構成を公開する必要があります。

3 番目に、ベンチマーク管理者には、ベンチマーク データのソースを提供し、データ汚染のリスクを分析し、より多様なプロンプトを使用して複数の評価を実施する必要があります。

しかし、研究チームは、この研究にはまだ一定の限界があることも指摘した。たとえば、さまざまな程度のデータ漏洩の体系的なテストは行われておらず、事前トレーニング中のシミュレーションではデータ漏洩が直接導入されていませんでした。

この研究は、中国人民大学情報学院、高陵人工知能学院、イリノイ大学アーバナ・シャンペーン校の数名の学者によって共同で実施されました。

研究チームには、データマイニング分野の大物である温継栄氏と韓佳偉氏という2人の人物がいました。

温吉栄教授は現在、中国人民大学高陵人工知能学院の学長および中国人民大学情報学院の学長を務めています。主な研究方向は、情報検索、データマイニング、機械学習、大規模ニューラルネットワークモデルのトレーニングと応用です。

Han Jiawei教授はデータマイニング分野の専門家です。現在はイリノイ大学アーバナ・シャンペーン校のコンピュータサイエンス学部の教授であり、Association for Computing Machinery のフェロー、IEEE のフェローでもあります。

論文アドレス: https://arxiv.org/abs/2311.01964.

<<: 

>>:  自動運転におけるトランスフォーマーベースのモデルとハードウェアアクセラレーションの分析

ブログ    
ブログ    

推薦する

AI時代のセキュリティ情勢にはどのような新たな変化が起こっているのでしょうか?

近年、世界の人工知能産業は急速な発展の勢いを見せており、セキュリティ状況はますます複雑になっています...

GMIC 2018: DataVisor が成長中の企業に AI 不正防止機能を導入する方法

9月26日から28日まで、北京でグローバルモバイルインターネットカンファレンス(GMIC 2018)...

Googleが4月22日に発表したアルゴリズム改善策の分析

Google の中国ウェブマスター ブログにログインすると、4 月 22 日の午後に更新された「品質...

AIが従業員のオンボーディングを自動化する5つの方法

ますます激化する労働市場で人材獲得競争に勝つための新たな可能性を模索するビジネスリーダーや人事マネー...

顔認識ブームは沈静化すべきでしょうか?

北京地下鉄は昨年11月から、セキュリティチェックに顔認識技術を使用する試験運用を開始し、ブラックリス...

AI が「脳で画像を完成させる」ことを学習: ニューラル ネットワークが 0 から 1 までの画像を完成させる

1新しいインテリジェンス集出典: arXiv、Github張毅編纂[新しいインテリジェンスの紹介]自...

LeCun はそれを見て良かったと言っていました! Meta AI は音声、視覚、テキストで同時に SOTA を達成

人間の知能は「マルチモーダル学習」の総体であり、分類の境界を越えてさまざまな情報源や形式からの情報と...

スマート運転の新たな戦い:「レーダーとビジョンの融合」に対抗、5つの勢力が別々に攻撃

[[440742]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

モノのインターネット業界は一時的な流行に過ぎないのでしょうか、それとも産業史上の重要な節目となるのでしょうか?

人類の長い発展の過程において、生産性を向上させることができる発明や方法は、人々の記憶に残ります。産業...

「ビッグデータが古い顧客を殺す」といった混乱が顕著になる中、どのような「アルゴリズム」が必要なのでしょうか?

次のような経験をしたことはありませんか。求人検索サイトで仕事の希望に関するアンケートに答えると、サイ...

人工知能の大学が雨後の筍のように次々と誕生しています。そこでは何を教えるのでしょうか?どのように教えるか?

[[240090]] 2018年グローバル人工知能製品アプリケーション博覧会で、来場者がテーマポス...

アルトマンが帰ってきた!取締役会解散の強い要求、OpenAIの究極の宮廷闘争が始まる

スティーブ・ジョブズが解雇されてから王として復帰するまでに12年かかりましたが、サム・アルトマンの場...

TENSORFLOW を使用してリカレント ニューラル ネットワーク言語モデルをトレーニングする

[[201448]]私は、TensorFlow リカレント ニューラル ネットワークのチュートリアル...

マスク氏:大胆なアイデアがあるんです!信号機にAIビジョンプラグインを追加する

オフィスワーカーにとって、大都市では 2 種類の交通手段があります。 彼らは日中は仕事に行くことも、...

高性能 LLM 推論フレームワークの設計と実装

1. 大規模言語モデル推論の概要従来の CNN モデル推論とは異なり、大規模言語モデルの推論は通常、...