Huggingfaceの機械学習科学者が、ホットなラマ2を特集する分析記事を執筆

Meta は無料の商用バージョンである Llama 2 をリリースし、ネットワーク全体を席巻しました。

これまで、Llama 1 バージョンは、オープンソース契約の問題により、無料で商用利用することはできませんでした。現在、Llama 2 のリリースにより、この制限は正式に解除されました。

Llama 2 モデルシリーズには、70 億、130 億、700 億の 3 つのモデルが含まれています。また、Meta は 340 億のパラメータバリアントもトレーニングしましたが、リリースされておらず、技術レポートでのみ言及されていました。

Llama -2-70B-Chat はリリースされるとすぐに、Hugging Face の Open LLM リーダーボードでトップになりました。

写真

Llama 2 は、データ品質、トレーニング技術、パフォーマンス評価、安全なトレーニングにおいて大幅な技術的拡張が施された Llama 1 モデルの継続モデルであると言えます。

この Meta のリリースはオープンソースにとって大きな飛躍ですが、このモデルはカスタマイズ性の向上とコストの削減を実現するため、クローズドソースプロバイダーにとっては大きな打撃となります。

誰もがLlama 2についてもっと知りたいと思うはずです。公式の技術情報に加えて、Huggingfaceの機械学習科学者であるNathan Lambert氏も、論文の内容に基づいて詳細なドキュメントをまとめており、その記事には彼自身の洞察も組み込まれています。

Llama 2 論文アドレス: https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

Nathan Lambert 氏は、次の点からこれを紹介しました。

モデル: Meta は、70 億、130 億、700 億、340 億のパラメータバリアントと Llama 2-Chat など、複数のモデルをリリースしました。 Meta は、事前トレーニングコーパスのサイズを 40% 増加し、モデルのコンテキスト長を 4k に倍増し、グループクエリアテンションメカニズムを採用しています。(注: Llama 2 を「オープンソースモデル」として定義できるかどうかは、まだ議論の余地があります。著者は、最新の修正バージョンではそうではないと考えています。)
パフォーマンス: Llama 2 モデルファミリは、ほとんどのベンチマークでオープンソースモデルよりも優れているだけでなく、Meta による有用性とセキュリティの手動評価に基づいて、クローズドソースモデルの適切な代替品となる可能性もあります。
コスト: Meta は莫大な予算を保有しており、プロジェクトの総コストは 2,000 万ドルから 4,500 万ドルになると見積もっています。データのみで見ると、市場価格で計算すると、嗜好データの準備に約 800 万ドルの費用がかかり、データチームは非常に大規模です。
チーム構成: Meta AI で組織変更の兆候がいくつか見られ、このチームは Yann Lecun や元の FAIR メンバーとは異なるようです。
コード、数学、推論: 論文ではコードデータと RLHF についてはあまり議論されていません。
複数ターンの一貫性: この論文では、複数ターンの対話の流れを制御するのに役立つ新しい手法、Ghost Attention (GAtt) を提案します。
報酬モデル: 安全性と有用性のトレードオフを実現するために、2 つの報酬モデルの使用を研究します。
RLHF プロセス: この論文では、最初に拒否サンプリングを使用し、次に近似ポリシー最適化 (PPO) を組み合わせて拒否サンプリング + 近似ポリシー最適化処理を実行する 2 段階の RLHF 方式を採用しています。この論文では、RLHF が非常に重要であり、LLM の優れたライティング能力は基本的に RLHF によって推進されているとも指摘しています。
安全性と危険性の評価: この論文では、安全性の評価 (論文のほぼ半分)、コンテキストの抽出、および安全性を目的とした RLHF の使用に多くのスペースが割かれています。
ライセンス: このモデルは商用目的で使用できますが、製品の月間アクティブユーザー数が 7 億人以上の場合は、アクセスを取得するためにフォームに記入する必要があります。

ネイサン・ランバート氏は、ラマ2号はおそらく数か月間トレーニングを続けており、次のバージョンも開発中であると予想している。

基本モデル

Llama 2 は、アーキテクチャやその他の面でオリジナルの Llama と非常に似ていますが、Llama 2 ではコンテキストの長さが長くなり、グループ化クエリアテンション (GQA) メカニズムが採用されています。 Llama 2 での変更のほとんどは、データとトレーニングプロセスに関するものです。コンテキストの長さを増やすと、チャットの使いやすさの要件を満たすことができ、グループ化されたクエリアテンションメカニズムによって推論速度が向上します。

Llama 2 のトレーニングコーパスには、公開されているソースからのさまざまなデータが含まれており、Meta 製品またはサービス関連のデータは含まれていません。今回、Meta は大量の個人情報が含まれるウェブサイトからデータを削除することに尽力しました。さらに、Llama 2 の事前トレーニング済みモデルは 2 兆個のトークンでトレーニングされており、パフォーマンスとコストの適切なバランスを実現できます。

Meta の公開論文の大部分は、強力な基本モデルを再現することではなく、評価と微調整に関するものです。この動きにより、オープンソースの大規模言語モデルのリーダーとしての Meta の地位が強化されると思われます。

次の図は、Llama 2-Chat のトレーニングパイプラインを示しています。 Meta は、嗜好データに基づいて報酬モデルをトレーニングし、強化学習を使用して最適化し、モデルの品質を向上させます。

写真

嗜好データ

ネイサン・ランバート氏は、Metaが発表した論文を通じて、報酬モデルがRLHFの鍵であり、モデルの鍵であることにMetaが同意したという噂を確認したと述べた。優れた報酬モデルを実現するために、Meta は、オープンソースコミュニティで現在使用されているデータの量をはるかに超える嗜好データを収集するために多大な努力を払う必要がありました。

データに関する詳細情報は次のとおりです。

Meta は、他のより複雑なフィードバックデータタイプではなく、「大幅に改善、改善、わずかに改善」などのバイナリ比較データを大量に収集します。
Meta は、データ収集時に各データプロバイダーに個別のガイドラインを適用し、有用性と安全性を重視してデータ収集を行っています。
Meta は収集されたデータに追加の安全性メタデータを追加し、各ラウンドでモデルのどの応答が安全であったかを示します。
Meta は反復的なデータ収集アプローチを採用しており、手動の注釈は毎週のバッチで収集されます。より多くの嗜好データが収集されるにつれて、報酬モデルは改善されます。

ネイサン・ランバート氏は、ベンダーが市場価格に近い価格を請求すると仮定すると、このリリースの Meta のデータコストだけで 800 万ドルを超える可能性があると予測しています。以下の表は、Meta が長期にわたって収集した報酬モデリングデータをまとめ、複数のオープンソースの設定データセットと比較したものです。

写真

報酬モデル

報酬モデルについては、次の 2 つの重要な詳細があります。

有用性と安全性の目標を区別するために 2 つの報酬モデルが使用されました。
報酬モデルは反復的に展開され、必要な嗜好データの量を決定します。

まず、論文では、有用性に最適化した報酬モデル（Helpfulness RM と呼ばれる）と安全性に最適化した報酬モデル（Safety RM と呼ばれる）の 2 つの別個の報酬モデルをトレーニングしたと述べています。どちらのモデルも、標準言語モデルのヘッドを線形回帰層に置き換えることで、基本言語モデル上に構築されます。彼らは、モデルがどのチェックポイントからのものかは指定しませんでしたが、RLHF トレーニングにおける分布の不一致を最小限に抑えるために最新のチャットモデルを使用しました。

このプロセスには注目すべき技術的な詳細がいくつかあります。

Meta は、なぜそれが必要なのか詳細な説明なしに、Anthropic の無害なデータの一部を依然として保持しています。
報酬モデルの過剰適合を避けるために、1 つのエポックのみがトレーニングされました。
報酬モデルの平均精度はまだ 65 ～ 70% に過ぎませんが、注釈者の好みがより一貫している場合、精度は 80 ～ 90% に達する可能性があります。

次の図は、報酬モデルの精度が時間の経過とともにどのように変化するかを示しています。

写真

RLHFと微調整

Meta は、RLHF を使用してモデルを有意義に改善する方法を示しました。彼らは、RLHF-V1、…、RLHF-V5 の 5 つの RLHF バージョンを繰り返しトレーニングしました。

写真

Meta は当初から、モデルにおけるデータ品質の重要性を指摘してきました。

Meta 氏は論文で次のように述べています。「必要なのは品質だけです。さまざまなソースからサードパーティの SFT (教師あり微調整) データを入手できますが、多くのデータは多様性に欠け、高品質ではないことがわかりました。特に、LLM モデルを会話指示に合わせるためのデータはそうです。サードパーティのデータセットの例は別にして、自社のサプライヤーからの少数の高品質注釈付き例を使用することで、パフォーマンスが大幅に向上しました。」

Meta は、数万の注釈を持つ SFT が高品質の結果を達成するのに十分であることを発見しました。そのため、Meta は合計 27,540 件の注釈を収集した後、SFT の注釈作業を停止しました。

Meta 氏はまた、異なる注釈プラットフォームとベンダー提供のデータによって下流のモデルのパフォーマンスに違いが生じる可能性があることを観察し、ベンダー注釈付きデータであってもフォローアップチェックが重要であることを示唆しました。 Meta データの品質を検証するために、180 個の例を注意深く調べ、手動で提供された注釈と、人間によるレビューを通じてモデルによって生成されたサンプルを比較しました。

データの品質が確立された後、Meta は強化学習コンポーネントに重点を置き始めました。

「私たちの研究では、特にコストと時間効率を考慮すると、強化学習が非常に効果的であることがわかりました」とメタ氏は論文で述べています。「私たちの研究結果は、RLHF の成功の重要な要因は、注釈付けプロセス全体を通じて人間と LLM の相乗効果を促進することであると強調しています。」

Meta 氏の発言は、RLHF が本質的にモデル性能の上限を向上させることを明確に指摘した最初の論文であるため、非常に興味深いものです。一方、他の研究チームは、RLHF は重要であると信じながらも、それを安全ツールとしてのみ見なしています。

ネイサン・ランバートは、効果的な RLHF には少なくとも中規模のチームが必要であると考えています。 1〜3 人のチームでも優れた指導モデルを公開できますが、この RLHF には少なくとも 6〜10 人のチームが必要だと彼は考えています。時間が経つにつれて、この数は減少する可能性があります。

評価する

この論文では、彼らのモデルをさまざまな側面から評価しています。以下の図は、Llama 2-Chat モデルの人間による評価結果をオープンソースモデルおよびクローズドソースモデルと比較したものです。結果は、Llama 2-Chat モデルがシングルターンプロンプトとマルチターンプロンプトの両方でオープンソースモデルを大幅に上回っていることを示しています。特に、Llama 2-Chat 7B モデルは、60% のキューで MPT-7B-chat モデルよりも優れたパフォーマンスを発揮します。 Llama 2-Chat 34B モデルは、同等の能力を持つ Vicuna-33B および Falcon 40B モデルとの戦闘で、総合勝率が 75% を超えました。

写真

図 11 は、セキュリティと有用性の観点から見たさまざまな SFT および RLHF バージョンの進捗状況を報告しています。

次の図は、バイアス、レッドチーム、事前トレーニング手順など、セキュリティに関するいくつかの結果を示しています。

写真

上記はNathaniel Lambert氏のブログの主な内容です。彼は現在もLlama 2の続編分析記事を準備中です。ご興味のある方はぜひご覧ください。

>>: 12 のモダリティ、1 つの学習フレームワーク、Meta-Transformer がバックボーンネットワークの統合を実現