14分間トレーニングしてアルパカを超えろ！中国チームは、LLMに基づく新しいデータフィルタリングパラダイム「Flying Alpaca」をリリースしました。

最近、命令微調整 (IFT) は、命令に従う能力を獲得するための大規模言語モデル (LLM) の事前トレーニングの主要なトレーニング段階として採用されています。

しかし、広く使用されている IFT データセット (Alpaca の 52k データなど) には、誤った応答や無関係な応答を含む低品質のインスタンスが多く含まれており、IFT に誤解を招き、悪影響を及ぼします。

これまでの処理方法では、主にこれらの低品質データを手動で選別していましたが、これには時間と労力がかかり、拡張も困難でした。

したがって、これらの低品質データを効率的かつ自動的に除外する方法が、LLM の微調整効果を向上させる鍵となります。

現在、メリーランド大学、サムスン、USC の研究者らは、強力な LLM (ChatGPT など) を使用して低品質データを自動的に識別して削除し、命令微調整 (IFT) のパフォーマンスを向上させる効果的なデータフィルタリング戦略を提案しています。

写真

論文アドレス: https://arxiv.org/abs/2307.08701

プロジェクトアドレス: https://lichang-chen.github.io/AlpaGasus/

この研究では、研究者らが提案したモデル AlpaGasus が、52,000 個の Alpaca データからフィルタリングされた 9,000 個の高品質データを使用して微調整されています。

AlpaGasus は、複数のテストセットでオリジナルの Alpaca を大幅に上回り、その 13B バージョンはテストタスクで教師モデル (Text-Davinci-003 など) の 90% よりも優れたパフォーマンスを発揮します。

さらに、AlpaGasus はトレーニング時間の 5.7 倍の改善を達成し、バージョン 7B のトレーニング時間を 80 分から 14 分に短縮しました。

少ないデータで強力なトレーニング「アルパカ」

具体的には、研究者は強力な LLM (ChatGPT など) を使用して、各タプル (指示、入力、応答) の品質を自動的に評価し、正確性や有用性などの入力のさまざまな側面にスコアを付け、しきい値を下回るスコアのデータを除外しました。

採点プロンプトは次のとおりです。

写真

メソッドのパイプラインは次のとおりです。

実験セクション

実験セクションでは、著者らは包括的かつ多様なテストセットを使用して、提案された言語モデル AlpaGasus を評価しました。

この包括的な評価セットには、Self-instruct、Vicuna、WizardLM、および Koala のテストセットが含まれています。各テストセットは異なる指示を提供するため、評価の偏りが軽減され、AlpaGasus のパフォーマンスの包括的な概要が提供されます。

著者らは、AlpaGasus を 4 つの最近の LLM (Alpaca、Text-Davinci-003、ChatGPT、Claude) と比較しました。

パフォーマンス評価

パフォーマンス評価のために、著者らは GPT-4 を審判として使用し、一連の指示に対するさまざまなモデルの応答を評価および比較しました。

GPT-4 審査員の位置バイアスに対処するために、著者らは両方の順序 (つまり、AlpaGasus の応答をベースラインモデルの応答の前/後に配置する) を試し、最終スコアは 2 つのスコアの「勝ち、引き分け、負け」基準に基づいて決定されました。

結果分析

結果のセクションでは、著者らはデータの量よりも質の方が重要であると強調しています。

これは、前者が後者よりも大幅に少ないトレーニングデータを使用しているにもかかわらず、すべてのテストセットで AlpaGasus-9k が AlpaGasus-52k よりも優れたパフォーマンスを示していることからも明らかです。

著者らはまた、AlpaGasus-9k を、Alpaca データセットからランダムに選択された 9k のデータを使用してトレーニングされたモデルと比較しました。

閾値が IFT に及ぼす影響を調べるために、より低い閾値 (4.0) を適用して選択された 39k データで微調整された LLaMA と AlpaGasus を比較します。

結果は、9k の高品質データのみでトレーニングされたモデルが、39k の一般品質データでトレーニングされたモデルよりも大幅に優れていることを示しています。

アブレーション実験の部分では、著者らは AlpaGasus のトレーニング用に選択された 9k データから 3k と 6k のデータをランダムに抽出し、同じトレーニングスクリプトを使用して LLaMA の AlpaGasus の 2 つのバリアントを微調整しました。

4 つのテストセットすべてにおいて、9k データでトレーニングされた AlpaGasus のパフォーマンスが最高であり、高品質のデータが増えるほど IFT モデルが向上することを示しています。

詳細な評価

さらに、著者らは、WizardLM および Vicuna テストセットのさまざまなスキル/カテゴリで AlpaGasus モデルの詳細な評価も実施しました。

まず、著者らはWizardLMテストセット上でAlpaGasus-7B（9k）とAlpaca-7B（52k）のパフォーマンスを比較しました。

結果によると、AlpaGasus は 29 のスキルのうち 22 のスキルで Alpaca よりも優れているか同等のパフォーマンスを示しましたが、プログラミング (コード生成など) などの残りの 7 つのスキルでは優位性は示されませんでした。

著者らは、データの選択とフィルタリングのプロセス中にスキルカテゴリの割合が指定されていなかったため、プログラミング関連データのフィルタリングされた割合（88.16%）が平均フィルタリング割合（82.25%）よりもはるかに高くなったことが原因である可能性があると結論付けました。したがって、プログラミングスキルは他のスキルよりも弱くなります。

つまり、IFT では、トレーニングデータをさまざまなカテゴリ間で多様かつバランスの取れた状態に保つことが非常に重要です。

次に、著者らはWizardLMテストセット上でAlpaGasus-13B（9k）とAlpaga-13B（52k）のパフォーマンスをさらに比較しました。

その中で、結果は 7B モデルの観察と一致しており、AlpaGasus は依然としてほとんどのスキルで Alpaca を上回っています。

これは、モデルのサイズが大きくなっても、データ品質がデータ量を上回っていることを示しています。

Vicuna テストセットの分析では、反事実、ロールプレイング、知識、一般など、ほとんどのカテゴリで AlpaGasus-7B が Alpaca-7B を上回りました。さらに、この結論は、基本モデルを拡張した場合でも当てはまります。

次に著者らは、AlpaGasus、text-Davinci-003、ChatGPT、Claude を比較しました。結果は、AlpaGasus-13B が教師モデル text-Davinci-003 の機能の 90% を達成できることを示しています (text-Davinci-003 は Alpaca-52k 命令データを生成するために使用されます)。

コスト削減

コスト削減のセクションでは、AWS で必要な計算コストを考慮して、AlpaGasus と Alpaca のトレーニングコストを比較しています。

7B モデルの場合、トレーニングコストは、9k データを使用する AlpaGasus では 4.78 ドル、52k データを使用する Alpaca では 27.31 ドルです。

13B モデルの場合、9k データを使用する AlpaGasus のトレーニングコストは 40.96 ドルですが、52k データを使用する Alpaca のトレーニングコストは 225.28 ドルです。

これは、著者のデータ選択戦略により、モデルが拡大したときにトレーニングコストを大幅に削減できることを示しています。