ボストン大学の「Platypus-70B」がHugging Face大型模型ランキングでトップに!効率的なデータセットと独自のLoRA微調整が鍵

ボストン大学の「Platypus-70B」がHugging Face大型模型ランキングでトップに!効率的なデータセットと独自のLoRA微調整が鍵

Hugging Faceのオープンソース大型モデルのランキングがまた更新されました。今回のランキング1位は、Platypus 2-70Bです!

オープンソースのフェイスハグリストにあるほとんどのモデルと同様に、Platypus は Llama2 をベースにボストン大学の研究者によって微調整されました。

同時に、Platypus の進歩は、これまでのすべての大規模オープンソース モデルと同様、コンピューティング リソースとデータの使用量を減らしながらパフォーマンスを向上させています。

13B Platypus モデルは、25,000 の質問を使用して単一の A100 GPU で 5 時間でトレーニングできます。

論文アドレス: https://arxiv.org/pdf/2308.07317.pdf

研究者の論文によると、Platypus 70B が強くなった主な理由は 2 つあります。

1.データセットを編集する: 類似した質問や重複した質問を削除する

2. モデルはLoRAとPEFTを使用して最適化され、非注意モジュールに重点が置かれました。

Platypus は、テスト データの漏洩やトレーニング データの汚染のチェックにも独自の貢献をしており、将来の研究にとって貴重な参考資料となります。

カモノハシはどれくらい速く、簡単で、経済的か

Platypus は主に、小規模ながら強力なデータセット Open-Platypus でパラメータ効率チューニング (PEFT) を使用し、LoRA の非注意部分を微調整することで、モデルのパフォーマンスを向上させます。

一般的に専門分野に焦点を当て、微調整に時間と費用がかかるモデルとは異なり、Platypus は全体的なモデルのパフォーマンスを向上させるだけでなく、特定の分野でも優れたパフォーマンスを発揮します。

この研究では、ドメイン固有のデータセットによって、選択されたタスク カテゴリのパフォーマンスを向上できることがわかりました。モデルのマージと組み合わせて使用​​すると、トレーニング時間を大幅に短縮できます。

オープンソースデータセット

研究チームは、Hugging Face を通じてカモノハシのデータセット Open-Platypus を一般に公開しました。

Open-Platypus は 11 個のオープンソース データセットで構成されており、そのほとんどは人間が設計した問題で構成されており、LLM によって生成された問題は全体の約 10% のみで、最小限の微調整時間とコストで強力なパフォーマンスを実現できます。 LLM の STEM と論理的能力の向上に重点を置きます。

同時に、研究チームはこれらのデータセットを最適化し、データセットを削減してデータの冗長性を最小限に抑えることに成功しました。

具体的な操作は次のとおりです。

記憶を最小限に抑えるために類似性除去によって逐語的に繰り返されるすべての指示を削除し、次にトレーニング セット内の他の指示の SentenceTransformers 埋め込みと 80% のコサイン類似性を持つ指示を削除しました。

デフォルトでは、より詳細な回答が含まれる質問と回答のペアが保持されます。回答が長くなると、より詳細な説明や段階的な解決策が必要になる可能性が高くなります。

データ汚染の解決

研究チームは、オープン LLM トレーニング セットの汚染問題を詳細に調査し、カモノハシ データのフィルタリング プロセスを導入しました。

研究チームのデータ フィルタリングに対するアプローチの核心は、テスト データの記憶によってベンチマーク結果が歪められるのを防ぐために、ベンチマーク テストの質問が誤ってトレーニング セットに漏れないようにすることです。

これを念頭に置いて、質問を重複としてマークし、トレーニング セットから削除するかどうかを決定する際には、余裕を持たせる必要があります。

クエリはさまざまな方法で表現される可能性があり、共通のドメイン知識によって質問が重複しているとみなされないようにできるため、疑わしい質問を識別する際にはある程度の柔軟性を持たせます。

この目的のために、研究チームは、ベンチマーク問題との類似性が 80% を超える Open-Platypus の質問を手動で選別するための次のヒューリスティック手法を開発しました。

研究チームは、潜在的な問題を重複、グレーゾーン、類似しているが異なるという3つのカテゴリーに分類しました。しかし、念のため、研究チームはそれらをすべてトレーニング セットから削除する予定です。

1. 繰り返し:

これらの質問は、テストセットの質問とほぼ正確に複製されていますが、単語が少し変更されていたり、配置が少し変更されていたりする場合があります。

これは、上の表の漏洩件数で示されているように、私たちが「本物」と定義する汚染のカテゴリーです。この状況の具体的な例は次のとおりです。

2. グレーゾーン

この一連の質問はグレー エリアと呼ばれ、完全に重複したものではなく常識の範疇に入る質問が含まれます。

これらの問題に関する最終的な判断はオープンソース コミュニティに委ねていますが、これらの問題には専門知識が必要になることが多いと考えています。

このカテゴリには、指示はまったく同じだが回答が同義の質問が含まれていることに注意してください。

3. 似ているが違うもの:

最後のカテゴリには、コサイン類似度スコアが高いにもかかわらず、回答が大きく異なる質問が含まれます。

これは多くの場合、質問の構造がわずかに変わることで、まったく異なる回答が得られることに起因する可能性があります。

下の図の最初の問題は、回転軸と象限の定義を変更することで最終的な答えが大幅に変わった良い例です。

モデルの微調整と統合

データセットを改良し、汚染を3回チェックした後、チームはモデルを微調整して統合しました。

主な方法は、低ランク近似 (LoRA) トレーニングとパラメータ効率の良い微調整 (PEFT) ライブラリです。

完全な微調整とは異なり、LoRA は事前トレーニング済みのモデルの重みを保持し、ランク因数分解マトリックスを変換レイヤーに組み込みます。

これにより、トレーニング可能なパラメータの数を減らし、トレーニングの時間とコストを節約できます。

たとえば、Platypus 13B モデルでは 1 台の A100 80GB を使用して 5 時間の微調整を要し、70B モデルでは 4 台の A100 80GB を使用して 22 時間の微調整を要しました。

基準として、スタンフォード大学による Alpaca-7B の完全な微調整は 8 台の A100 80GB で実行され、3 時間かかりました。

研究チームは当初、v_proj、q_proj、k_proj、o_proj などの注目モジュールを中心にモデルを微調整しました。

その後、研究者らは、gate_proj、down_proj、up_proj モジュールの微調整に着手し、注意モジュールと比較して、トレーニング可能なパラメータが合計パラメータの 0.1% 未満の場合、これらのモジュールの微調整はモデルよりも優れたパフォーマンスを発揮しました。

一貫性を保つために、研究チームはこの方法を 13B モデルと 70B モデルの両方に使用し、トレーニング可能なパラメータをそれぞれ 0.27% と 0.2% に設定しました。

唯一の違いは、これらのモデルの初期学習率です。

研究チームのモデル統合戦略は、Instruct や Beluga などの幅広いモデル、または Camel などの特殊なモデルとの統合による相乗効果を評価することを目的としています。

研究チームは、モデルを統合するとモデルの知識ベースを効果的に拡大できることを発見しましたが、どのモデルを統合するか、広範囲に統合するか集中的に統合するかを選択することが、パフォーマンスの結果を決定する上で重要な役割を果たすことがわかりました。

同時に、モデルのマージの有効性は、テストされる特定のドメインによって異なります。

パフォーマンスの向上と低下はすべての領域で均一ではないため、合併を確定させる前にドメイン固有の評価を行う必要があることが示唆されます。

カモノハシが1位

本日の Hugging Face オープンソース LLM ランキング データでは、Platypus2-70B が依然として 1 位にランクされており、そのバリアントも多くの LLM の中で上位にランクされています。

13B サイズでも、カモノハシは平均スコア 63.96 で傑出したパフォーマンスを発揮し、13B モデルのリーダーとなりました。

ハギングフェイスのオープンLLMランキング

Huggingface の Open LLM ランキングは現在、オープンソース コミュニティで最も多く使用されており、参加モデルが最も多いランキングでもあります。

Open LLM リーダーボードでは、多数の異なる評価タスクで生成言語モデルをテストするための統合フレームワークである Eleuther AI 言語モデル評価フレームワークを使用します。モデルは 4 つの主要なベンチマークで評価されます。

1. AI2: 科学的問題に関する推論テスト。合計 25 問。

2. HellaSwag: 常識的な推論テストですが、合計 10 個のテストがあり、大規模な言語モデルでは非常に難しいです。

3. MMLU: テキストモデルのマルチタスク精度を測定します。試験は初等数学、米国史、コンピューターサイエンス、法律などを含む57の課題をカバーし、合計10回テストされます。

4. TruthfulQA: インターネット上の一般的な虚偽コンテンツを複製するモデルの傾向をテストするために使用されます。

テスト フレームワーク全体はオープン ソースです。ネットユーザーはこのフレームワークを使用してモデルをローカルでテストしたり、モデルを Hugging Face に送信してオンラインでスコアリングしたりできます。

世界中のあらゆるサイズのモデルにリスト入りのチャンスがあり、見事トップに到達すれば、世界一のモデルであると宣言することができます。

韓国のチームによってトレーニングされたオープンソースモデルは、Platypus に追い抜かれる前は世界一だった。彼らはこの成果を、会社のホームページで最も目を引く場所に誇らしげに掲載しました。

Hugging Face の Open LLM ランキングは、技術者がモデルの機能を客観的に比較できるだけでなく、オープンソース コミュニティ モデルが自らを披露し、外部リソースを取得し、最終的にさらに発展する機会も提供します。

これはオープンソース コミュニティの目的とも一致しています。

高コストパフォーマンスのコンセプトを堅持し、モデルを改善するためのさまざまな試みを許可し、オープン性と共通の進歩を受け入れます...

おそらくこれがオープンソース コミュニティが活発な理由でしょう。

<<:  1月に8万人以上の従業員が解雇されました!世界のテクノロジー業界のレイオフリストが発表されました。企業が大きいほど、レイオフする人数も多くなります。X社は従業員の半数を一気にレイオフしました!

>>:  コーヒーショップの監視ビデオが流出し、何百万人もの人々が視聴していた。マスク氏は「ひどい!」と叫んだ。 AIはあなたがコーヒーをどれくらい飲んだかを正確に把握しています

ブログ    
ブログ    
ブログ    

推薦する

...

人工知能医療機器業界は前進する

[[443093]]新世代の人工知能技術の台頭は、医療業界にインテリジェント変革を実現するための新た...

...

Aurora の 1 億ドルの買収の背後にあるもの: RISC-V の創始者が「中国製チップ」を開発するという野望

2月27日、米国の著名な自動運転企業であるAuroraは、ライダーチップ企業OURSを1億ドルで買収...

毎日のアルゴリズム: 二分木の最小共通祖先

この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載したもので、著者はsis...

...

RPAとは何ですか?ビジネスプロセス自動化の革命

CISO は、日常的なタスクを排除し、従業員がより価値の高い仕事に集中できるようにするために、ロボ...

サプライチェーン管理における自動化の重要性

今日のペースが速く競争の激しいビジネス環境において、サプライ チェーン管理は成功に不可欠な要素です。...

ガートナーの2020年のトップ10戦略的テクノロジートレンド: ハイパーオートメーション、分散クラウド、AIセキュリティなど

ハイパーオートメーション、ブロックチェーン、AI セキュリティ、分散クラウド、自律デバイスは、今年の...

Sparkに代わると期待されるリアルタイム機械学習フレームワークRay

新しいプロジェクトは、Python で記述された機械学習アプリケーションをサポートするために使用でき...

職場でロボットが増えると、雇用に影響が出るでしょうか?

最近、中国労働・社会保障科学院の莫容研究チームが発表した研究結果によると、わが国における人工知能の雇...

TensorFlow ワイド&ディープラーニングチュートリアル

[[211918]]この記事では、TF.Learn API を使用して、ワイド線形モデルとディープ ...

機械学習は、モノのインターネットの発展に欠かせない未来となるだろう

近年、機械学習ほどモノのインターネットの急速な成長を牽引したものはほとんどありません。人間の創造性を...

...