13Bモデルはあらゆる面でGPT-4を圧倒しますか?この裏にあるトリックは何でしょうか?

13Bモデルはあらゆる面でGPT-4を圧倒しますか?この裏にあるトリックは何でしょうか?

130 億のパラメータを持つモデルが実際にトップの GPT-4 に勝つのでしょうか?下の図に示すように、結果の妥当性を保証するために、このテストは OpenAI のデータ汚染除去方法にも従っており、さらに重要なことに、データ汚染の証拠は見つかりませんでした。

図のモデルをよく見ると、「rephraser」という単語が含まれている限り、モデルのパフォーマンスが比較的高いことがわかります。

この背後にある秘密は何でしょうか?データが汚染されていた、つまりテスト セットの情報がトレーニング セットに漏れていたことが判明しましたが、この汚染を検出するのは容易ではありませんでした。この問題は非常に重要であるにもかかわらず、汚染を理解して検出することは未解決かつ困難な問題のままです。

現在、汚染除去に最も一般的に使用されている方法は、n グラム オーバーラップと埋め込み類似性検索です。n グラム オーバーラップは、文字列のマッチングを利用して汚染を検出し、GPT-4、PaLM、Llama-2 などのモデルで使用される一般的な方法です。埋め込み類似性検索は、事前トレーニング済みモデル (BERT など) の埋め込みを使用して、類似した潜在的に汚染されている例を見つけます。

しかし、カリフォルニア大学バークレー校と上海交通大学の研究によると、テストデータの単純な変更(書き換え、翻訳など)によって、既存の検出方法を簡単に回避できることが示されています。このようなテスト ケースのバリエーションを「言い換えサンプル」とも呼びます。

以下は、MMLU ベンチマークからの書き換えサンプルを示しています。結果は、このようなサンプルがトレーニング セットに含まれている場合、13B モデルが非常に高いパフォーマンス (MMLU 85.9) を達成できることを示しています。残念ながら、既存の検出方法 (n グラムの重複、埋め込みの類似性など) では、この汚染を検出できません。たとえば、埋め込み類似性法では、言い換えられた質問を同じトピックの他の質問と区別することが困難です。

同様の適応技術を使用することで、HumanEval や GSM-8K などの広く使用されているコーディングおよび数学ベンチマークで一貫した結果が得られます (記事の冒頭の図を参照)。したがって、このような書き換えられたサンプルを検出できることが重要になります。

次に、この研究がどのように行われたかを見てみましょう。


  • 論文アドレス: https://arxiv.org/pdf/2311.04850.pdf
  • プロジェクトアドレス: https://github.com/lm-sys/llm-decontaminator#detect

論文紹介

記事では、大規模モデル (LLM) が急速に発展するにつれて、テスト セットの汚染の問題がますます注目されるようになり、多くの人々が公開ベンチマークの信頼性について懸念を抱いていると述べています。

この問題に対処するために、文字列マッチング(例:n グラムの重複)などの従来の除染方法を使用してベンチマーク データを削除する人もいますが、テスト データに簡単な変更(書き換え、翻訳など)を加えるだけで、これらのサニタイズ対策を簡単に回避できるため、これらの操作ではまったく不十分です。

さらに重要なのは、テスト データのこの変更が排除されない場合、13B モデルは簡単にテスト ベンチマークをオーバーフィットし、GPT-4 に匹敵するパフォーマンスを達成できるということです。彼らは、MMLU、GSK8k、HumanEval などのベンチマークでこれらの観察結果を検証しました。

同時に、これらの増大するリスクに対処するために、本論文では、より強力な LLM ベースの除染方法である LLM 除染器も提案し、それを一般的な事前トレーニングおよび微調整データセットに適用します。結果は、本論文で提案された LLM 方法が、上書きされたサンプルの除去において既存の方法よりも大幅に優れていることを示しています。

このアプローチにより、これまで知られていなかったテストの重複もいくつか明らかになりました。たとえば、RedPajamaData-1T や StarCoder-Data などの事前トレーニング セットでは、HumanEval ベンチマークに 8 ~ 18% の重複があることがわかりました。さらに、この論文では、GPT-3.5/4 によって生成された合成データセットにもこの汚染が見つかりました。これは、AI 分野における偶発的な汚染の潜在的なリスクも示しています。

この記事では、パブリックベンチマークを使用する際にコミュニティがより強力なサニタイズ方法を採用することを奨励し、モデルを正確に評価するための新しい 1 回限りの試験を積極的に開発するようコミュニティに呼びかけています。

書き直しサンプル

この論文の目的は、トレーニング セットにテスト セットを追加するという単純な変更が最終的なベンチマーク パフォーマンスに影響を与えるかどうかを調査することであり、テスト ケースのこの変更を「書き換えられたサンプル」と呼びます。実験では、数学、知識、コーディングなど、ベンチマークのさまざまな領域が考慮されました。例 1 は GSM-8k から書き直されたサンプルです。10 グラムの重複は検出できず、変更されたテキストは元のテキストと同じ意味を維持します。


ベースライン汚染にはさまざまな形態があるため、書き換え手法には微妙な違いがあります。テキストベースのベンチマークの場合、語順の並べ替えや用語の同義語への置き換えなど、セマンティクスを変更せずにテストケースを書き直します。コードベースのベンチマークの場合、コーディングスタイルや命名方法などを変更します。

以下に示すように、アルゴリズム 1 では、指定されたテスト セットに対して単純なアルゴリズムが提案されています。この方法は、テストサンプルの検出を回避するのに役立ちます。

次に、ベンチマークと比較してデータセットから上書きされたサンプルを正確に除去できる新しい汚染検出方法を提案します。

具体的には、LLM 除染装置について紹介します。まず、各テストケースに対して、埋め込み類似度検索を使用して、最も類似度の高い上位 k 個のトレーニング項目を識別し、次に LLM (例: GPT-4) を使用して各ペアが同一かどうかを評価します。この方法は、データセット内に言い換えられた例がいくつあるかを判断するのに役立ちます。

図 4 は、さまざまな汚染とさまざまな検出方法のベン図を示しています。

実験

セクション 5.1 では、言い換えられたサンプルでトレーニングされたモデルが大幅に高いスコアを達成し、広く使用されている 3 つのベンチマーク (MMLU、HumanEval、GSM-8k) で GPT-4 に匹敵するパフォーマンスを達成できることを実験的に実証し、言い換えられたサンプルは汚染と見なしてトレーニング データから削除する必要があることを示しています。セクション 5.2 では、MMLU/HumanEval から適応したサンプルに基づいて、さまざまな汚染検出方法を評価します。セクション 5.3 では、広く使用されているトレーニング セットに LLM 除染装置を適用し、これまで知られていなかった汚染を発見します。

次に、主な結果のいくつかを見てみましょう。

サンプル汚染ベンチマークの書き換え

表 2 に示すように、書き換えられたサンプルでトレーニングされた Llama-2 7B および 13B は、MMLU で 45.3 ~ 88.5 の範囲の大幅に高いスコアを達成しています。これは、書き換えられたサンプルによってベンチマーク データが大幅に歪む可能性があり、汚染されていると見なす必要があることを示唆しています。

この論文では、HumanEval テスト スイートを書き直し、C、JavaScript、Rust、Go、Java の 5 つのプログラミング言語に翻訳しています。結果は、書き換えられたサンプルでトレーニングされた CodeLlama 7B と 13B が、HumanEval でそれぞれ 32.9 ~ 67.7 と 36.0 ~ 81.1 という非常に高いスコアを達成できることを示しています。比較すると、GPT-4 は HumanEval で 67.0 しか達成できません。

以下の表 4 は同じ効果を実現します。

汚染検出方法の評価

表 5 に示すように、LLM 除染装置を除く他のすべての検出方法では、ある程度の偽陽性が発生します。 n-gram の重複によって、言い換えられたサンプルも翻訳されたサンプルも検出されません。マルチ QA BERT を使用すると、埋め込み類似性検索は翻訳サンプルに対してまったく効果がないことがわかります。

データセット汚染

表 7 は、各トレーニング データセットにおけるさまざまなベンチマークのデータ汚染率を示しています。

LLM 汚染除去ツールは、自己言い換えサンプルのインスタンスを 79 件検出し、MATH テスト セットの 1.58% を占めています。例 5 は、MATH トレーニング データ内の MATH テストを書き直した例です。

詳細については、原文論文をご覧ください。

<<:  GPT や Llama などの大規模モデルには「反転の呪い」があります。このバグを軽減するにはどうすればよいでしょうか?

>>:  ビッグモデルの「錯覚」、この記事を読んでください

ブログ    

推薦する

小度が「画期的な」新製品を百度世界2020で初公開、CCTVと提携してスマートライフの全貌を披露

「小都小都」、「私はここにいます」 - 数百万の家族と小都の間の日常会話のシーンがCCTVニュースス...

私が嫌いな人工知能

以前は、機械学習に少しイライラしていました。一方では、メディアやトレーニング機関が機械学習を汎用人工...

...

アルゴリズムのアルゴリズム: すべての機械学習アルゴリズムはニューラルネットワークとして表現できる

機械学習におけるすべての研究は、ニューラル ネットワークの作成とともに 1950 年代の初期の研究以...

倪光南学士がRAG技術、AIエージェント、AI倫理的課題について語る

中国工程院の院士である倪光南氏は、第2回北京人工知能産業革新発展会議で人工知能の発展に関する見解と経...

...

ディープラーニング、NLP、コンピュータービジョンのための 30 の優れた Python ライブラリ

[[357895]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

顔認証+総合決済、モバイル決済が新たな形を生む

モバイル決済は今や人々の生活の一部となり、人々に迅速で便利なショッピング体験をもたらしています。現在...

...

AIが医療をどう変えるか リアルタイムのデータ分析は医療にとって重要

科学者たちは、人工知能が多くの分野で人間を日常的な作業から解放できると信じています。ヘルスケアはこう...

...

...

MySQLインデックスの背後にあるデータ構造とアルゴリズムの原理

序文プログラミングの分野では、「プログラム = データ構造 + アルゴリズム」というよく知られたルー...

Volcano Engineがビヨンドのクラシックコンサートを超高解像度で復元、その技術的能力が一般公開される

7月3日夜、TikTokはユニバーサルミュージック傘下のレーベル、ポリグラムと提携し、ボルケーノエン...