13Bモデルはあらゆる面でGPT-4を圧倒しますか？この裏にあるトリックは何でしょうか?

130 億のパラメータを持つモデルが実際にトップの GPT-4 に勝つのでしょうか?下の図に示すように、結果の妥当性を保証するために、このテストは OpenAI のデータ汚染除去方法にも従っており、さらに重要なことに、データ汚染の証拠は見つかりませんでした。

図のモデルをよく見ると、「rephraser」という単語が含まれている限り、モデルのパフォーマンスが比較的高いことがわかります。

この背後にある秘密は何でしょうか?データが汚染されていた、つまりテストセットの情報がトレーニングセットに漏れていたことが判明しましたが、この汚染を検出するのは容易ではありませんでした。この問題は非常に重要であるにもかかわらず、汚染を理解して検出することは未解決かつ困難な問題のままです。

現在、汚染除去に最も一般的に使用されている方法は、n グラムオーバーラップと埋め込み類似性検索です。n グラムオーバーラップは、文字列のマッチングを利用して汚染を検出し、GPT-4、PaLM、Llama-2 などのモデルで使用される一般的な方法です。埋め込み類似性検索は、事前トレーニング済みモデル (BERT など) の埋め込みを使用して、類似した潜在的に汚染されている例を見つけます。

しかし、カリフォルニア大学バークレー校と上海交通大学の研究によると、テストデータの単純な変更（書き換え、翻訳など）によって、既存の検出方法を簡単に回避できることが示されています。このようなテストケースのバリエーションを「言い換えサンプル」とも呼びます。

以下は、MMLU ベンチマークからの書き換えサンプルを示しています。結果は、このようなサンプルがトレーニングセットに含まれている場合、13B モデルが非常に高いパフォーマンス (MMLU 85.9) を達成できることを示しています。残念ながら、既存の検出方法 (n グラムの重複、埋め込みの類似性など) では、この汚染を検出できません。たとえば、埋め込み類似性法では、言い換えられた質問を同じトピックの他の質問と区別することが困難です。

同様の適応技術を使用することで、HumanEval や GSM-8K などの広く使用されているコーディングおよび数学ベンチマークで一貫した結果が得られます (記事の冒頭の図を参照)。したがって、このような書き換えられたサンプルを検出できることが重要になります。

次に、この研究がどのように行われたかを見てみましょう。

論文アドレス: https://arxiv.org/pdf/2311.04850.pdf
プロジェクトアドレス: https://github.com/lm-sys/llm-decontaminator#detect

論文紹介

記事では、大規模モデル (LLM) が急速に発展するにつれて、テストセットの汚染の問題がますます注目されるようになり、多くの人々が公開ベンチマークの信頼性について懸念を抱いていると述べています。

この問題に対処するために、文字列マッチング（例：n グラムの重複）などの従来の除染方法を使用してベンチマークデータを削除する人もいますが、テストデータに簡単な変更（書き換え、翻訳など）を加えるだけで、これらのサニタイズ対策を簡単に回避できるため、これらの操作ではまったく不十分です。

さらに重要なのは、テストデータのこの変更が排除されない場合、13B モデルは簡単にテストベンチマークをオーバーフィットし、GPT-4 に匹敵するパフォーマンスを達成できるということです。彼らは、MMLU、GSK8k、HumanEval などのベンチマークでこれらの観察結果を検証しました。

同時に、これらの増大するリスクに対処するために、本論文では、より強力な LLM ベースの除染方法である LLM 除染器も提案し、それを一般的な事前トレーニングおよび微調整データセットに適用します。結果は、本論文で提案された LLM 方法が、上書きされたサンプルの除去において既存の方法よりも大幅に優れていることを示しています。

このアプローチにより、これまで知られていなかったテストの重複もいくつか明らかになりました。たとえば、RedPajamaData-1T や StarCoder-Data などの事前トレーニングセットでは、HumanEval ベンチマークに 8 ～ 18% の重複があることがわかりました。さらに、この論文では、GPT-3.5/4 によって生成された合成データセットにもこの汚染が見つかりました。これは、AI 分野における偶発的な汚染の潜在的なリスクも示しています。

この記事では、パブリックベンチマークを使用する際にコミュニティがより強力なサニタイズ方法を採用することを奨励し、モデルを正確に評価するための新しい 1 回限りの試験を積極的に開発するようコミュニティに呼びかけています。

書き直しサンプル

この論文の目的は、トレーニングセットにテストセットを追加するという単純な変更が最終的なベンチマークパフォーマンスに影響を与えるかどうかを調査することであり、テストケースのこの変更を「書き換えられたサンプル」と呼びます。実験では、数学、知識、コーディングなど、ベンチマークのさまざまな領域が考慮されました。例 1 は GSM-8k から書き直されたサンプルです。10 グラムの重複は検出できず、変更されたテキストは元のテキストと同じ意味を維持します。

ベースライン汚染にはさまざまな形態があるため、書き換え手法には微妙な違いがあります。テキストベースのベンチマークの場合、語順の並べ替えや用語の同義語への置き換えなど、セマンティクスを変更せずにテストケースを書き直します。コードベースのベンチマークの場合、コーディングスタイルや命名方法などを変更します。

以下に示すように、アルゴリズム 1 では、指定されたテストセットに対して単純なアルゴリズムが提案されています。この方法は、テストサンプルの検出を回避するのに役立ちます。

次に、ベンチマークと比較してデータセットから上書きされたサンプルを正確に除去できる新しい汚染検出方法を提案します。

具体的には、LLM 除染装置について紹介します。まず、各テストケースに対して、埋め込み類似度検索を使用して、最も類似度の高い上位 k 個のトレーニング項目を識別し、次に LLM (例: GPT-4) を使用して各ペアが同一かどうかを評価します。この方法は、データセット内に言い換えられた例がいくつあるかを判断するのに役立ちます。

図 4 は、さまざまな汚染とさまざまな検出方法のベン図を示しています。

実験

セクション 5.1 では、言い換えられたサンプルでトレーニングされたモデルが大幅に高いスコアを達成し、広く使用されている 3 つのベンチマーク (MMLU、HumanEval、GSM-8k) で GPT-4 に匹敵するパフォーマンスを達成できることを実験的に実証し、言い換えられたサンプルは汚染と見なしてトレーニングデータから削除する必要があることを示しています。セクション 5.2 では、MMLU/HumanEval から適応したサンプルに基づいて、さまざまな汚染検出方法を評価します。セクション 5.3 では、広く使用されているトレーニングセットに LLM 除染装置を適用し、これまで知られていなかった汚染を発見します。

次に、主な結果のいくつかを見てみましょう。

サンプル汚染ベンチマークの書き換え

表 2 に示すように、書き換えられたサンプルでトレーニングされた Llama-2 7B および 13B は、MMLU で 45.3 ～ 88.5 の範囲の大幅に高いスコアを達成しています。これは、書き換えられたサンプルによってベンチマークデータが大幅に歪む可能性があり、汚染されていると見なす必要があることを示唆しています。

この論文では、HumanEval テストスイートを書き直し、C、JavaScript、Rust、Go、Java の 5 つのプログラミング言語に翻訳しています。結果は、書き換えられたサンプルでトレーニングされた CodeLlama 7B と 13B が、HumanEval でそれぞれ 32.9 ～ 67.7 と 36.0 ～ 81.1 という非常に高いスコアを達成できることを示しています。比較すると、GPT-4 は HumanEval で 67.0 しか達成できません。

以下の表 4 は同じ効果を実現します。

汚染検出方法の評価

表 5 に示すように、LLM 除染装置を除く他のすべての検出方法では、ある程度の偽陽性が発生します。 n-gram の重複によって、言い換えられたサンプルも翻訳されたサンプルも検出されません。マルチ QA BERT を使用すると、埋め込み類似性検索は翻訳サンプルに対してまったく効果がないことがわかります。

データセット汚染

表 7 は、各トレーニングデータセットにおけるさまざまなベンチマークのデータ汚染率を示しています。

LLM 汚染除去ツールは、自己言い換えサンプルのインスタンスを 79 件検出し、MATH テストセットの 1.58% を占めています。例 5 は、MATH トレーニングデータ内の MATH テストを書き直した例です。

詳細については、原文論文をご覧ください。

<<: GPT や Llama などの大規模モデルには「反転の呪い」があります。このバグを軽減するにはどうすればよいでしょうか?

>>: ビッグモデルの「錯覚」、この記事を読んでください