Open LLM リストが再び更新されました。Llama 2 よりも強力な「Duckbill Puss」が登場します。

Open LLM リストが再び更新されました。Llama 2 よりも強力な「Duckbill Puss」が登場します。

OpenAI の GPT-3.5 や GPT-4 などのクローズドソース モデルの優位性に挑戦するために、LLaMa、Falcon など一連のオープン ソース モデル勢力が台頭しています。最近、Meta AI は LLaMa-2 モデルをリリースしました。これはオープンソース分野で最も強力な大規模モデルとして高く評価されており、多くの研究者もこれをベースに独自のモデルを構築しています。たとえば、StabilityAI は Orca スタイルのデータセットを使用して Llama2 70B モデルを微調整し、StableBeluga2 を作成しました。これは Huggingface の Open LLM リーダーボードでも優れた結果を達成しました。

最近、Open LLM リストのランキングに新たな変化があり、Platypus というモデルがリストのトップに躍り出ました。

要約すると、Platypus も Llama 2 をベースに若干の調整を加えたものです。ボストン大学の著者らは、最適化のために PEFT と LoRA、およびデータセット Open-Platypus を使用しました。

論文の中で、著者らは Platypus について詳細に紹介しています。

論文アドレス: https://arxiv.org/abs/2308.07317

この論文の主な貢献は次のとおりです。

  • Open-Platypus は、公開テキスト データセットの厳選されたサブセットで構成される小規模なデータセットです。このデータセットは、STEM と LLM の論理知識の向上に重点を置いた 11 個のオープンソース データセットで構成されています。これは主に人間が作成した質問で構成されており、LLM によって生成された質問は 10% のみです。 Open-Platypus の主な利点は、その規模と品質であり、非常に短時間で非常に高いパフォーマンスを達成でき、微調整の時間とコストが低いことです。具体的には、単一の A100 GPU で 25,000 の質問を使用して 13B モデルをトレーニングするのに 5 時間しかかかりません。
  • データセットのサイズを縮小し、データの冗長性を削減するための類似性除去プロセスについて説明します。
  • オープン LLM トレーニング セットが重要な LLM テスト セットに含まれるデータで汚染されるという永続的な現象を詳細に分析し、この隠れた危険を回避するためのトレーニング データ フィルタリング プロセスを紹介しています。
  • 特別に微調整された LoRA モジュールを選択してマージするプロセスについて説明します。

オープンプラティパスデータセット

現在、著者はHugging FaceでOpen-Platypusデータセットを公開しています。


汚染問題

私たちのアプローチでは、単なる記憶による結果の偏りを避けるために、ベンチマーク問題がトレーニング セットに漏れるのを防ぐことを優先します。著者らは正確さを追求していますが、質問はさまざまな方法で尋ねられ、共通のドメイン知識によって影響を受ける可能性があるため、重複した質問をマークする際には柔軟性が必要であることも認識しています。潜在的な漏洩を管理するために、著者らは、ベンチマーク問題とのコサイン埋め込み類似性が 80% を超える Open-Platypus の質問を手動でフィルタリングするためのヒューリスティックを慎重に設計しました。彼らは潜在的な漏洩を(1)重複、(2)グレーゾーン、(3)類似しているが同一ではない、の3つのカテゴリーに分類した。そして、慎重を期すために、すべてのグループをトレーニング セットから除外しました。

繰り返す

これはテスト セットのほぼ正確なコピーですが、単語や配置に若干の変更が加えられている可能性があります。上記の表の漏洩問題の数に基づくと、これが著者が真の汚染であると考える唯一のカテゴリです。具体的な例は以下のとおりです。

グレーゾーン

以下の質問はグレーゾーンと呼ばれ、完全に重複したものではなく常識の範囲内の質問が含まれます。著者らはこれらの問題に関する最終的な判断をオープンソース コミュニティに委ねていますが、これらの問題には専門知識が必要になることが多いことを認識しています。このカテゴリには、指示は同じだが回答が同義の質問が含まれることに注意してください。

似ているが同一ではない

質問の類似性は高いのですが、質問間にわずかな違いがあるため、回答には大きな違いがあります。

微調整と統合

データセットを改良した後、著者らは、低ランク近似 (LoRA) トレーニングとパラメータ効率的な微調整 (PEFT) ライブラリという 2 つの方法に焦点を当てました。完全な微調整とは異なり、LoRA は事前トレーニング済みのモデルの重みを保持し、ランク分解マトリックスをトランスフォーマー層に組み込みます。これにより、トレーニング可能なパラメータの数が減り、トレーニングの時間とコストが節約されます。最初は、微調整は主に v_proj、q_proj、k_proj、o_proj などの注目モジュールを対象とします。その後、He らによる洞察に基づいて、gate_proj、down_proj、up_proj モジュールへの移行が行われました。トレーニング可能なパラメータが合計パラメータの 0.1% 未満の場合を除き、これらのモジュールはより良い結果を示します。著者らはこの方法を 13B モデルと 70B モデルに均一に適用し、トレーニング可能なパラメータはそれぞれ 0.27% と 0.2% になりました。唯一の違いは、これらのモデルの初期学習率です。

結果

著者らは Platypus を他の SOTA モデルと比較しました。 2023年8月10日のHugging Face Open LLMランキングデータによると、Platypus2-70Binstructバリアントは他の競合製品を上回り、平均スコア73.13でトップになりました。

注目すべきは、Stable-Platypus2-13B モデルが 130 億のパラメータ モデルの中で平均スコア 63.96 でトップになったことです。

制限

LLaMa-2 の微調整された拡張機能である Platypus は、基本モデルの制約の多くを保持し、対象を絞ったトレーニングにより特定の課題を導入します。これは LLaMa-2 の静的な知識ベースを共有しますが、これは古くなっている可能性があります。特にプロンプ​​トが不明瞭な場合は、不正確または不適切なコンテンツが生成されるリスクもあります。 Platypus は STEM と英語の論理が強化されていますが、他の言語の能力は信頼できず、一貫性がない場合があります。また、偏った内容や有害な内容のコンテンツが作成されることもあります。著者らは、これらの問題を軽減するための努力はなされてきたが、特に英語以外の言語に関しては課題が残っていると述べている。

Platypus が悪意のある活動に悪用される可能性も懸念されています。開発者は、展開前にアプリケーションのセキュリティ テストを実行する必要があります。 Platypus は主なドメイン外では制限がある可能性があるため、ユーザーは慎重に進め、最適なパフォーマンスを得るために追加の微調整を検討する必要があります。ユーザーは、Platypus のトレーニング データと他のベンチマークの間に重複がないことを確認する必要があります。著者らはデータ汚染の問題について非常に慎重であり、汚染されたデータセットでトレーニングされたモデルとのマージを避けています。クリーンアップされたトレーニング データには汚染がないことが確認されましたが、いくつかの問題が見逃された可能性も否定できません。これらの制限事項の詳細については、論文の「制限事項」セクションを参照してください。

<<: 

>>:  アレックス・グレイブス氏の新しい論文「ベイジアンフローネットワーク」は離散データ生成の問題を解決しており、論文全体が数式でいっぱいである。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Xunlei 創設者 Cheng Hao: 人工知能起業における 6 つの核心課題

編集者注:この記事はWeChatの公開アカウントHaoge Says(ID:haogetalks)か...

来年のビジネス インテリジェンスの見通しはどうでしょうか?

インテリジェント テクノロジーの使用が拡大するにつれて、ビジネス インテリジェンスの最新動向を常に把...

Go 言語 - データ構造とアルゴリズム プロジェクト

[[404457]]この記事はWeChatの公開アカウント「roseduanの執筆場所」から転載した...

Sitechi スマートオペレーションプラットフォームがスマートシティの求心力を生み出す

デジタル トレントは、さまざまな新興テクノロジーが成熟し、新しいビジネスや新しいアプリケーションが出...

...

固有値分解から共分散行列へ: PCA アルゴリズムの詳細な分析と実装

この記事では、まず固有ベクトルと行列との関係を簡潔かつ明確に紹介し、次にそれを基に共分散行列と主成分...

脳コンピューターインターフェースの新発見!眠りに落ちた後、脳は起きている時の経験を再生する

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

...

...

よく使われる「生成AIライブラリ」の総合ガイド

皆さんこんにちは、Luga です。今日も引き続き、人工知能 (AI) エコシステムに関連するテクノロ...