14分間トレーニングしてアルパカを超えろ!中国チームは、LLMに基づく新しいデータフィルタリングパラダイム「Flying Alpaca」をリリースしました。

14分間トレーニングしてアルパカを超えろ!中国チームは、LLMに基づく新しいデータフィルタリングパラダイム「Flying Alpaca」をリリースしました。

最近、命令微調整 (IFT) は、命令に従う能力を獲得するための大規模言語モデル (LLM) の事前トレーニングの主要なトレーニング段階として採用されています。

しかし、広く使用されている IFT データセット (Alpaca の 52k データなど) には、誤った応答や無関係な応答を含む低品質のインスタンスが多く含まれており、IFT に誤解を招き、悪影響を及ぼします。

これまでの処理方法では、主にこれらの低品質データを手動で選別していましたが、これには時間と労力がかかり、拡張も困難でした。

したがって、これらの低品質データを効率的かつ自動的に除外する方法が、LLM の微調整効果を向上させる鍵となります。

現在、メリーランド大学、サムスン、USC の研究者らは、強力な LLM (ChatGPT など) を使用して低品質データを自動的に識別して削除し、命令微調整 (IFT) のパフォーマンスを向上させる効果的なデータ フィルタリング戦略を提案しています。

写真

論文アドレス: https://arxiv.org/abs/2307.08701

プロジェクトアドレス: https://lichang-chen.github.io/AlpaGasus/

この研究では、研究者らが提案したモデル AlpaGasus が、52,000 個の Alpaca データからフィルタリングされた 9,000 個の高品質データを使用して微調整されています。

AlpaGasus は、複数のテスト セットでオリジナルの Alpaca を大幅に上回り、その 13B バージョンはテスト タスクで教師モデル (Text-Davinci-003 など) の 90% よりも優れたパフォーマンスを発揮します。

さらに、AlpaGasus はトレーニング時間の 5.7 倍の改善を達成し、バージョン 7B のトレーニング時間を 80 分から 14 分に短縮しました。

少ないデータで強力なトレーニング「アルパカ」

具体的には、研究者は強力な LLM (ChatGPT など) を使用して、各タプル (指示、入力、応答) の品質を自動的に評価し、正確性や有用性などの入力のさまざまな側面にスコアを付け、しきい値を下回るスコアのデータを除外しました。

採点プロンプトは次のとおりです。

写真

メソッドのパイプラインは次のとおりです。

実験セクション

実験セクションでは、著者らは包括的かつ多様なテスト セットを使用して、提案された言語モデル AlpaGasus を評価しました。

この包括的な評価セットには、Self-instruct、Vicuna、WizardLM、および Koala のテスト セットが含まれています。各テスト セットは異なる指示を提供するため、評価の偏りが軽減され、AlpaGasus のパフォーマンスの包括的な概要が提供されます。

著者らは、AlpaGasus を 4 つの最近の LLM (Alpaca、Text-Davinci-003、ChatGPT、Claude) と比較しました。

パフォーマンス評価

パフォーマンス評価のために、著者らは GPT-4 を審判として使用し、一連の指示に対するさまざまなモデルの応答を評価および比較しました。

GPT-4 審査員の位置バイアスに対処するために、著者らは両方の順序 (つまり、AlpaGasus の応答をベースライン モデルの応答の前/後に配置する) を試し、最終スコアは 2 つのスコアの「勝ち、引き分け、負け」基準に基づいて決定されました。

結果分析

結果のセクションでは、著者らはデータの量よりも質の方が重要であると強調しています。

これは、前者が後者よりも大幅に少ないトレーニング データを使用しているにもかかわらず、すべてのテスト セットで AlpaGasus-9k が AlpaGasus-52k よりも優れたパフォーマンスを示していることからも明らかです。

著者らはまた、AlpaGasus-9k を、Alpaca データセットからランダムに選択された 9k のデータを使用してトレーニングされたモデルと比較しました。

閾値が IFT に及ぼす影響を調べるために、より低い閾値 (4.0) を適用して選択された 39k データで微調整された LLaMA と AlpaGasus を比較します。

結果は、9k の高品質データのみでトレーニングされたモデルが、39k の一般品質データでトレーニングされたモデルよりも大幅に優れていることを示しています。

アブレーション実験の部分では、著者らは AlpaGasus のトレーニング用に選択された 9k データから 3k と 6k のデータをランダムに抽出し、同じトレーニング スクリプトを使用して LLaMA の AlpaGasus の 2 つのバリアントを微調整しました。

4 つのテスト セットすべてにおいて、9k データでトレーニングされた AlpaGasus のパフォーマンスが最高であり、高品質のデータが増えるほど IFT モデルが向上することを示しています。

詳細な評価

さらに、著者らは、WizardLM および Vicuna テスト セットのさまざまなスキル/カテゴリで AlpaGasus モデルの詳細な評価も実施しました。

まず、著者らはWizardLMテストセット上でAlpaGasus-7B(9k)とAlpaca-7B(52k)のパフォーマンスを比較しました。

結果によると、AlpaGasus は 29 のスキルのうち 22 のスキルで Alpaca よりも優れているか同等のパフォーマンスを示しましたが、プログラミング (コード生成など) などの残りの 7 つのスキルでは優位性は示されませんでした。

著者らは、データの選択とフィルタリングのプロセス中にスキルカテゴリの割合が指定されていなかったため、プログラミング関連データのフィルタリングされた割合(88.16%)が平均フィルタリング割合(82.25%)よりもはるかに高くなったことが原因である可能性があると結論付けました。したがって、プログラミングスキルは他のスキルよりも弱くなります。

つまり、IFT では、トレーニング データをさまざまなカテゴリ間で多様かつバランスの取れた状態に保つことが非常に重要です。

次に、著者らはWizardLMテストセット上でAlpaGasus-13B(9k)とAlpaga-13B(52k)のパフォーマンスをさらに比較しました。

その中で、結果は 7B モデルの観察と一致しており、AlpaGasus は依然としてほとんどのスキルで Alpaca を上回っています。

これは、モデルのサイズが大きくなっても、データ品質がデータ量を上回っていることを示しています。

Vicuna テスト セットの分析では、反事実、ロール プレイング、知識、一般など、ほとんどのカテゴリで AlpaGasus-7B が Alpaca-7B を上回りました。さらに、この結論は、基本モデルを拡張した場合でも当てはまります。

次に著者らは、AlpaGasus、text-Davinci-003、ChatGPT、Claude を比較しました。結果は、AlpaGasus-13B が教師モデル text-Davinci-003 の機能の 90% を達成できることを示しています (text-Davinci-003 は Alpaca-52k 命令データを生成するために使用されます)。

コスト削減

コスト削減のセクションでは、AWS で必要な計算コストを考慮して、AlpaGasus と Alpaca のトレーニング コストを比較しています。

7B モデルの場合、トレーニング コストは、9k データを使用する AlpaGasus では 4.78 ドル、52k データを使用する Alpaca では 27.31 ドルです。

13B モデルの場合、9k データを使用する AlpaGasus のトレーニング コストは 40.96 ドルですが、52k データを使用する Alpaca のトレーニング コストは 225.28 ドルです。

これは、著者のデータ選択戦略により、モデルが拡大したときにトレーニング コストを大幅に削減できることを示しています。

要約する

本論文で提案されたデータ フィルタリング方法は、スケーラビリティと自動化の面で大きな利点を示しており、トレーニング データの品質を慎重に管理することで IFT パフォーマンスが大幅に向上し、計算コストが大幅に削減されることを証明しています。

データ選択および評価戦略は、他の命令微調整データセットや LLM にも広く適用でき、大規模言語モデルの実用的展開に向けた新たな研究方向を切り開きます。

<<:  ただ! Stack Overflow セルフヘルプがオープン

>>:  テスラの秘密チームが暴露:ネガティブなニュースを抑え、虚偽入札の段階を乗り切ることに特化

ブログ    
ブログ    
ブログ    

推薦する

設計原則、テスト指標...顔アルゴリズムテストのハードコアスキルを体系的に整理

ビジュアル AI 分野の開発者にとって、適切なアルゴリズムを選択することはプロジェクトの戦いの半分を...

あなたのキャリアはAIの影響を受けますか?

[[277927]] [51CTO.com クイック翻訳] 今日、私たちは日常生活や仕事を実現する...

人工知能に関する長期的および短期的な懸念

人工知能(AI)技術の発展により、いつか「超人」的なAIが出現する日は来るのでしょうか?もしそうなれ...

データのラベル付けは不要、「3D理解」によるマルチモーダル事前トレーニングの時代へ! ULIPシリーズは完全にオープンソースで、SOTAをリフレッシュします

3D 形状、2D 画像、および対応する言語記述を整合させることにより、マルチモーダル事前トレーニング...

AI人材が年間数百万ドルを稼ぐ理由

現在、ほぼすべてのテクノロジー大手が AI プロジェクトを実施しており、AI 時代に勝ち残るために、...

AIはハリウッドに影響を与えているのでしょうか?議論の余地はあるものの、答えはすでにある

最新の3Dアニメーションをご覧になった方は、その壮大な世界に衝撃を受けるかもしれません。もしこれらの...

中国がAI技術をリードしているのは数学が優れているからでしょうか?米誌、中国と米国の数学教育の格差を指摘

米国のコンピューターサイエンス分野の博士課程学生の 64% 以上と修士課程学生の 70% 近くが留学...

...

...

28 歳の中国人 Meta ソフトウェア エンジニアが、次のような理由で年収 37 万ドルの仕事を辞めました...

物語の主人公は中国人のソフトウェアエンジニア、エリック・ユーです。 2016年、Google、Met...

fBox アルゴリズムを使用して、高度に隠蔽された詐欺ユーザーを検出する方法

[51CTO.com クイック翻訳] インターネットの活発な発展とインターネットユーザーの継続的な増...

AIはGoogleの変革のツールとなり得るか?

[[252713]]画像出典: Visual China 2018年の中国インターネット業界を一言...

WeChat、サードパーティのエコシステムに統合するインテリジェント会話システム「Xiaowei」を発表

2019年WeChatオープンクラスPROで、WeChat AIチームが開発したインテリジェント対話...

...

百度は「ニューラル条件付きランダムフィールド」病理スライス分析アルゴリズムをオープンソース化、専門病理学者よりも高い精度を実現

最近、百度研究所は論文で「ニューラル条件付きランダムフィールド」病理スライス分析アルゴリズムを提案し...