大手モデルは「チャートをブラッシュアップ」するために近道をとっているのでしょうか?データ汚染問題は注目に値する

大手モデルは「チャートをブラッシュアップ」するために近道をとっているのでしょうか?データ汚染問題は注目に値する

生成 AI の初年度で、すべての人の仕事のペースが大幅に加速しました。

特に、今年は誰もが大型モデルの発表に力を入れています。最近、国内外のテクノロジー大手や新興企業が次々と大型モデルを発表しています。記者会見が始まると、それぞれが大きな躍進を遂げ、重要なベンチマークリストを更新し、1位または最前線にランクインしています。

急速な技術進歩に興奮した多くの人々は、何かがおかしいことに気付きました。なぜ誰もがリストのトップにいるのでしょうか?このメカニズムは何ですか?

その結果、「チャート操作」の問題が大きな注目を集めるようになりました。

最近、WeChat MomentsやZhihuコミュニティにおける大規模モデルによる「ランキング操作」の問題に関する議論が増えていることに気づきました。特に、知乎には次のような投稿があります。天宮ビッグモデル技術レポートで指摘されている、多くのビッグモデルが分野内のデータを使ってランキングをブラッシュアップしているという現象をどう評価しますか?それは皆の間で議論を引き起こしました。

リンク: https://www.zhihu.com/question/628957425

いくつかの大規模モデルのランキングメカニズムが暴露された

この研究は、先月末にプレプリント論文プラットフォームarXivで技術レポートを発表した崑崙万為の「天宮」大型モデル研究チームによるものである。

論文リンク: https://arxiv.org/abs/2310.19341

この論文では、Skywork の大規模言語モデル (LLM) シリーズである Skywork-13B を紹介しています。著者らは、セグメント化されたコーパスを使用した 2 段階のトレーニング アプローチを紹介し、それぞれ一般的なトレーニングとドメイン固有の拡張トレーニングに焦点を当てています。

大規模モデルに関する新しい研究では通常通り、著者らは、このモデルが一般的なテストベンチマークで優れたパフォーマンスを発揮するだけでなく、多くの中国語のサブタスクで最先端のレベル(業界最高)を達成していると述べています。

重要な点は、報告書が多くの大手モデルの実際の効果も検証し、他の国内大手モデルの一部が手抜きをしていた疑いがあると指摘したことだ。これは表8です:

ここでは、業界で一般的ないくつかの大規模モデルの数学応用問題ベンチマーク GSM8K へのオーバーフィッティングの程度を検証するために、著者は GPT-4 を使用して GSM8K と形式的に同一のサンプルをいくつか生成し、手動で正確性をチェックし、生成されたデータセット上のこれらのモデルを GSM8K の元のトレーニング セットとテスト セットと比較し、損失を計算しました。さらに 2 つの指標があります。

Δ1 は、モデルのトレーニング中に発生する可能性のあるテスト データ漏洩の指標として機能し、値が低いほど漏洩の可能性があることを示します。テスト セットがトレーニングに使用されない場合は、値は 0 になります。

Δ2 は、データセットのトレーニング分割の過剰適合の度合いを測定します。 Δ2 値が高いほど、過剰適合を示します。トレーニング セットでトレーニングされていない場合、値は 0 になります。

簡単に言えば、モデルがスコアを向上させるために、トレーニング中にベンチマークテストの「実際の質問」と「回答」を学習教材として使用すると、ここで異常が発生します。

OK、Δ1 と Δ2 の問題領域は、上記で灰色で慎重に強調表示されています。

ネットユーザーらは、ついに誰かが「データセット汚染」という公然の秘密について声を上げたとコメントした。

一部のネットユーザーは、大規模モデルの知能レベルは依然としてゼロショット機能に依存しており、既存のテストベンチマークでは達成できないとも述べている。

写真: 知乎ネットユーザーのコメントのスクリーンショット

著者と読者とのやり取りの中で、著者は「多くのモデルとGPT4の間にはまだ大きなギャップがあるため、誰もがランキング操作の問題をより合理的に見るようになる」という希望も表明しました。

画像: Zhihu の記事のスクリーンショット https://zhuanlan.zhihu.com/p/664985891

データ汚染問題は注目に値する

実際、これは一時的な現象ではありません。 Benchmark の登場以来、今年 9 月に arXiv に掲載された記事の皮肉なタイトルが指摘したように、このような問題はときどき発生しています。「必要なのはテスト セットでの事前トレーニングだけです。」

さらに、中国人民大学とイリノイ大学アーバナ・シャンペーン校による最近の正式な研究でも、大規模モデルの評価における問題点が指摘されています。タイトルは非常に目を引くものです。「LLM を評価ベンチマークの不正行為者にしないでください」。

論文リンク: https://arxiv.org/abs/2311.01964

この論文は、現在、大規模モデルの分野が盛んであるため、ベンチマークランキングに注目が集まっているが、その公平性と信頼性が疑問視されていると指摘している。主な問題はデータの汚染と漏洩であり、事前トレーニングコーパスを準備する際に将来の評価データセットがわからないために無意識のうちに引き起こされる可能性があります。たとえば、GPT-3 では事前トレーニング コーパスに Children's Book Test データセットが含まれていることがわかり、LLaMA-2 の論文では BoolQ データセットからコンテキスト ウェブ ページ コンテンツを抽出することが言及されています。

データ セットの収集、整理、ラベル付けには、多くの人が多大な労力を費やす必要があります。高品質のデータ セットが評価に使用できるほど優れている場合は、当然、他の人が大規模なモデルをトレーニングするために使用することもできます。

一方、既存のベンチマークで評価する場合、評価する大規模モデルの結果は、主にローカル サーバーで実行するか、API 呼び出しを通じて取得されます。このプロセスでは、評価パフォーマンスの異常な増加につながる可能性のある不適切な手段(データ汚染など)について厳密な調査は行われませんでした。

さらに悪いことに、トレーニング コーパス (データ ソースなど) の詳細な構成は、既存の大規模モデルの中核となる「秘密」と見なされることがよくあります。これにより、データ汚染の問題を調査することがより困難になります。

つまり、優れたデータの量は限られており、GPT-4 と Llama-2 は必ずしも多くのテストセットで優れたパフォーマンスを発揮できるとは限りません。たとえば、最初の論文で言及されている GSM8K や、公式の技術レポートで言及されている GPT-4 では、トレーニング セットが使用されていることが述べられています。

データは非常に重要だとおっしゃいましたね。では、「実際の質問」を使用してより良いスコアを出す大規模モデルのパフォーマンスは、より良いトレーニングデータによって向上するのでしょうか?答えはノーです。

研究者らは、ベンチマーク漏れによって大規模なモデルが誇張されたパフォーマンスを達成する可能性があることを実験的に発見しました。たとえば、1.3B モデルは、特定のタスクではその 10 倍のサイズのモデルよりも優れたパフォーマンスを発揮できます。しかし、副作用として、漏洩したデータをモデルの微調整やトレーニングにのみ使用すると、他の通常のテストタスクにおけるこれらの大規模なテスト固有のモデルのパフォーマンスに悪影響が及ぶ可能性があります。

したがって、著者らは、将来、研究者が大規模なモデルを評価したり、新しい技術を研究したりする際に、次のことをすべきだと提案しています。

  • 基本的な能力 (例: テキスト生成) と高度な能力 (例: 複雑な推論) の両方をカバーする、さまざまなソースからのベンチマークをさらに使用して、LLM の能力を総合的に評価します。
  • 評価ベンチマークを使用する場合、事前トレーニング データと関連データ (トレーニング セットやテスト セットなど) の間でデータ サニタイズ チェックを実行することが重要です。また、評価ベースラインの汚染分析結果を参考として報告する必要があります。可能であれば、事前学習データの詳細な構成を公開することをお勧めします。
  • 手がかり感度の影響を軽減するために、さまざまなテスト手がかりを使用することが推奨されます。潜在的な汚染リスクを警告するために、ベンチマーク データと既存の事前トレーニング コーパス間の汚染分析を実行することも重要です。評価の目的で、各提出物には特別な汚染分析レポートを添付することをお勧めします。

最後に、幸いなことに、この問題は徐々に皆の注目を集め始めており、技術レポート、論文研究、コミュニティの議論など、大規模モデルの「ランキング操作」の問題に人々が注目し始めていることを述べたいと思います。

これに関してあなたの意見や効果的な提案は何ですか?

<<:  スタンフォード大学の研究:スマートフォンの録画で人が酔っているかどうかを98%の精度で識別できる

>>:  北京大学やテンセントなどが言語を使ってマルチモーダル情報を整合させるLanguageBindを提案し、複数のランキングを更新した。

推薦する

百度と東軟教育が共同で「東軟百度人工知能アカデミー」を設立し、AIの「人材不足」を打破

インテリジェント時代が加速しており、人工知能の人材はAIの発展を支える第一のリソースとして特に重要で...

...

AIとソフトウェアが5Gデータセンターの変革を推進する方法

私たちはコンピューティングにおける革新の大きな段階を目撃しています。急速に加速する世界的な 5G 展...

プログラマーでなくてもわかる「機械学習」の原理

機械学習とは何ですか?一般的なシナリオから始めましょう:ある日、マンゴーを買いに行ったところ、店員が...

本当に滑らか: 浙江大学、ETH チューリッヒ、CityU が共同で開発した 3D ヘア モデリングの新しい手法、NeuralHDHair

近年、バーチャルデジタルヒューマン業界は大変人気が高まっており、あらゆる分野の人々が独自のデジタルヒ...

モデルA: おかげさまで0点にならずに済みました。モデルB: 私も同じです。

多種多様なレゴブロックを一つずつ積み重ねて、あらゆる種類の本物そっくりのキャラクターや風景などを作成...

AI列車に乗ってみよう!マーケティングに人工知能を活用する3つの方法

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

解読: ボストン ダイナミクスがアルゴリズムを使用してアトラス ロボットの感覚世界を構築する方法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ロボットは人間と機械の協働チームの「リーダー」になれるでしょうか?どのように機能しますか?

ロボット技術の発展により、ロボットは実生活においてますます重要な役割を果たすようになるでしょう。人間...

GPT-4: 私が書いたコードを使ってみますか?調査によると、APIの不正使用率は62%を超えている。

言語モデリングの新しい時代が到来し、大規模言語モデル (LLM) は自然言語を理解するだけでなく、ユ...

AIと機械学習が交通をどのように変えているのか

人工知能 (AI) と機械学習が現代生活を改善すると期待される多くの方法の中でも、公共交通機関に影響...

...

畳み込みニューラルネットワークのパフォーマンス最適化

導入畳み込みはニューラル ネットワークのコア計算の 1 つです。コンピューター ビジョンにおける畳み...

...

ハイブリッドクラウド環境でディープラーニングを取り入れたID認証はより柔軟

[51CTO.com からのオリジナル記事] 入れ墨は、秦と漢の時代に広く使用されていた刑法の一種で...