Open LLM リストが再び更新されました。Llama 2 よりも強力な「Duckbill Puss」が登場します。

OpenAI の GPT-3.5 や GPT-4 などのクローズドソースモデルの優位性に挑戦するために、LLaMa、Falcon など一連のオープンソースモデル勢力が台頭しています。最近、Meta AI は LLaMa-2 モデルをリリースしました。これはオープンソース分野で最も強力な大規模モデルとして高く評価されており、多くの研究者もこれをベースに独自のモデルを構築しています。たとえば、StabilityAI は Orca スタイルのデータセットを使用して Llama2 70B モデルを微調整し、StableBeluga2 を作成しました。これは Huggingface の Open LLM リーダーボードでも優れた結果を達成しました。

最近、Open LLM リストのランキングに新たな変化があり、Platypus というモデルがリストのトップに躍り出ました。

要約すると、Platypus も Llama 2 をベースに若干の調整を加えたものです。ボストン大学の著者らは、最適化のために PEFT と LoRA、およびデータセット Open-Platypus を使用しました。

論文の中で、著者らは Platypus について詳細に紹介しています。

論文アドレス: https://arxiv.org/abs/2308.07317

この論文の主な貢献は次のとおりです。

Open-Platypus は、公開テキストデータセットの厳選されたサブセットで構成される小規模なデータセットです。このデータセットは、STEM と LLM の論理知識の向上に重点を置いた 11 個のオープンソースデータセットで構成されています。これは主に人間が作成した質問で構成されており、LLM によって生成された質問は 10% のみです。 Open-Platypus の主な利点は、その規模と品質であり、非常に短時間で非常に高いパフォーマンスを達成でき、微調整の時間とコストが低いことです。具体的には、単一の A100 GPU で 25,000 の質問を使用して 13B モデルをトレーニングするのに 5 時間しかかかりません。
データセットのサイズを縮小し、データの冗長性を削減するための類似性除去プロセスについて説明します。
オープン LLM トレーニングセットが重要な LLM テストセットに含まれるデータで汚染されるという永続的な現象を詳細に分析し、この隠れた危険を回避するためのトレーニングデータフィルタリングプロセスを紹介しています。
特別に微調整された LoRA モジュールを選択してマージするプロセスについて説明します。

オープンプラティパスデータセット

現在、著者はHugging FaceでOpen-Platypusデータセットを公開しています。

汚染問題

私たちのアプローチでは、単なる記憶による結果の偏りを避けるために、ベンチマーク問題がトレーニングセットに漏れるのを防ぐことを優先します。著者らは正確さを追求していますが、質問はさまざまな方法で尋ねられ、共通のドメイン知識によって影響を受ける可能性があるため、重複した質問をマークする際には柔軟性が必要であることも認識しています。潜在的な漏洩を管理するために、著者らは、ベンチマーク問題とのコサイン埋め込み類似性が 80% を超える Open-Platypus の質問を手動でフィルタリングするためのヒューリスティックを慎重に設計しました。彼らは潜在的な漏洩を（1）重複、（2）グレーゾーン、（3）類似しているが同一ではない、の3つのカテゴリーに分類した。そして、慎重を期すために、すべてのグループをトレーニングセットから除外しました。

繰り返す

これはテストセットのほぼ正確なコピーですが、単語や配置に若干の変更が加えられている可能性があります。上記の表の漏洩問題の数に基づくと、これが著者が真の汚染であると考える唯一のカテゴリです。具体的な例は以下のとおりです。

グレーゾーン

以下の質問はグレーゾーンと呼ばれ、完全に重複したものではなく常識の範囲内の質問が含まれます。著者らはこれらの問題に関する最終的な判断をオープンソースコミュニティに委ねていますが、これらの問題には専門知識が必要になることが多いことを認識しています。このカテゴリには、指示は同じだが回答が同義の質問が含まれることに注意してください。

似ているが同一ではない

質問の類似性は高いのですが、質問間にわずかな違いがあるため、回答には大きな違いがあります。

微調整と統合

データセットを改良した後、著者らは、低ランク近似 (LoRA) トレーニングとパラメータ効率的な微調整 (PEFT) ライブラリという 2 つの方法に焦点を当てました。完全な微調整とは異なり、LoRA は事前トレーニング済みのモデルの重みを保持し、ランク分解マトリックスをトランスフォーマー層に組み込みます。これにより、トレーニング可能なパラメータの数が減り、トレーニングの時間とコストが節約されます。最初は、微調整は主に v_proj、q_proj、k_proj、o_proj などの注目モジュールを対象とします。その後、He らによる洞察に基づいて、gate_proj、down_proj、up_proj モジュールへの移行が行われました。トレーニング可能なパラメータが合計パラメータの 0.1% 未満の場合を除き、これらのモジュールはより良い結果を示します。著者らはこの方法を 13B モデルと 70B モデルに均一に適用し、トレーニング可能なパラメータはそれぞれ 0.27% と 0.2% になりました。唯一の違いは、これらのモデルの初期学習率です。

結果

著者らは Platypus を他の SOTA モデルと比較しました。 2023年8月10日のHugging Face Open LLMランキングデータによると、Platypus2-70Binstructバリアントは他の競合製品を上回り、平均スコア73.13でトップになりました。

注目すべきは、Stable-Platypus2-13B モデルが 130 億のパラメータモデルの中で平均スコア 63.96 でトップになったことです。

制限

LLaMa-2 の微調整された拡張機能である Platypus は、基本モデルの制約の多くを保持し、対象を絞ったトレーニングにより特定の課題を導入します。これは LLaMa-2 の静的な知識ベースを共有しますが、これは古くなっている可能性があります。特にプロンプトが不明瞭な場合は、不正確または不適切なコンテンツが生成されるリスクもあります。 Platypus は STEM と英語の論理が強化されていますが、他の言語の能力は信頼できず、一貫性がない場合があります。また、偏った内容や有害な内容のコンテンツが作成されることもあります。著者らは、これらの問題を軽減するための努力はなされてきたが、特に英語以外の言語に関しては課題が残っていると述べている。

Platypus が悪意のある活動に悪用される可能性も懸念されています。開発者は、展開前にアプリケーションのセキュリティテストを実行する必要があります。 Platypus は主なドメイン外では制限がある可能性があるため、ユーザーは慎重に進め、最適なパフォーマンスを得るために追加の微調整を検討する必要があります。ユーザーは、Platypus のトレーニングデータと他のベンチマークの間に重複がないことを確認する必要があります。著者らはデータ汚染の問題について非常に慎重であり、汚染されたデータセットでトレーニングされたモデルとのマージを避けています。クリーンアップされたトレーニングデータには汚染がないことが確認されましたが、いくつかの問題が見逃された可能性も否定できません。これらの制限事項の詳細については、論文の「制限事項」セクションを参照してください。

<<:

>>: アレックス・グレイブス氏の新しい論文「ベイジアンフローネットワーク」は離散データ生成の問題を解決しており、論文全体が数式でいっぱいである。