HuggingFace が再びオープンソースの大規模モデルのリストのトップに躍り出ました。 最前列は、数週間前に展示されていたさまざまな Mixtral 8x7B の微調整バージョンを除けば、すべてSOLAR 10.7B の微調整バージョンで埋め尽くされています。 SOLAR大型モデルの由来は何ですか? 関連論文が ArXiv にアップロードされました。これは韓国のUpstage AI社によるもので、新しい大規模モデル拡張法である深度アップスケーリング(DUS)を使用しています。 簡単に言うと、 7Bアルパカ2頭の頭と尻尾を切り落とし、片方の最初の8層を切り落とし、もう片方の最後の8層を切り落とします。 残りの2つの24層モデルを縫い合わせ、最初のモデルの24層目と2番目のモデルの9層目を接合して、最終的に新しい48層10.7Bの大型モデルを形成します。 この論文では、新しいアプローチは MoE などの従来のスケーリング方法よりも優れており、基盤となる大規模モデルとまったく同じインフラストラクチャで使用できると主張しています。 ゲーティングネットワークやMoEに最適化されたトレーニングフレームワークなどの追加モジュールは必要なく、高速推論のためのカスタムCUDAカーネルも不要です。高い効率性を維持しながら、既存の方法にシームレスに統合できます。 チームは7Bスケール最強の単体大型モデルであるミストラル7Bをベース素材に選び、オリジナル版やMoE版を上回る新たな手法でつなぎ合わせました。 同時に、調整されたInstructバージョンも、対応するMoE Instructバージョンを上回ります。 最後まで縫合するこの論文では、直感に基づいてこのスプライシング方法が使用される理由を説明しています。 まず、最も単純な拡張方法、つまり 32 層の基本的な大規模モデルを 2 回繰り返して 64 層にします。 これの利点は、異質性がなく、すべてのレイヤーがベースの大きなモデルから取得されるが、レイヤー 32 と 33 の間の継ぎ目にはより大きな「レイヤー距離」があることです(これはレイヤー 1 と同じです) 。 これまでの研究では、Transformer の異なるレイヤーはそれぞれ異なる機能を果たし、たとえば、より深いレイヤーはより抽象的な概念の処理に優れていることが示されています。 研究チームは、層の距離が大きすぎると、事前にトレーニングされた重みを効果的に活用するモデルの能力が妨げられる可能性があると考えています。 1 つの解決策として、中間層を犠牲にして継ぎ目の差を減らすことが考えられ、ここから DUS 方式が生まれました。 パフォーマンスとモデル サイズのトレードオフに基づいて、チームは各モデルから 8 つのレイヤーを削除することを選択し、シームは 1 番目のレイヤーに接続された 32 レイヤーから 9 番目のレイヤーに接続された 24 レイヤーに変更されました。 単純につなぎ合わせたモデルのパフォーマンスは、最初は元の基本モデルよりも低くなりますが、事前トレーニングを継続することですぐに回復できます。 命令の微調整フェーズでは、オープンソース データセットの使用に加えて、数学的に強化されたデータセットも作成され、アライメント フェーズでは DPO が使用されました。 最後のステップは、異なるデータ セットでトレーニングされたモデル バージョンを加重平均して、ステッチを完了することです。 一部のネットユーザーはテストデータの漏洩の可能性を疑問視した。 研究チームはこの点も考慮し、論文の付録でデータ汚染テストの結果を具体的に報告し、その結果は低いレベルを示しました。 最後に、SOLAR 10.7B ベース モデルと微調整されたモデルは両方とも、Apache 2.0 プロトコルに基づくオープン ソースです。 これを試したネットユーザーからは、JSON 形式のデータからデータを抽出するパフォーマンスが優れているとの報告がありました。 論文アドレス: https://arxiv.org/abs/2312.15166 |
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
FPS ゲームをプレイしたことがある人なら、音で位置を識別できるはずですよね?銃声と足音は敵の方向...
AI は人間の従業員の努力を補完し、彼らの時間を解放することができます。人事担当者はこの機会を利用し...
一夜にして何千ものスタートアップが OpenAI に敗北しました。そうです、GPT-4 は昨夜再びひ...
少し前に、Google Brain チームの論文「Attention Is All You Need...
[51CTO.com からのオリジナル記事] 人工知能は間違いなく、今日最も注目されている技術の ...
この記事では、最近 FloydHub ブログで Cathal Horan が紹介した自然言語処理のト...
[[401969]]英国政府は最近、夜間経済が回復する中で安全が最優先事項であることを国民に再確認さ...
[51CTO.comより引用] モバイルインターネットの発展に伴い、あらゆるものの相互接続が可能に...
COVID-19パンデミックは、物流やスーパーマーケットなどの分野に問題と機会の両方をもたらしまし...
[[349033]]テクノロジーの継続的な進歩により、私たちの日常生活はますます便利になっています。...
最短経路問題は、グラフ理論研究における古典的なアルゴリズム問題であり、グラフ(ノードとパスで構成され...
朝のラッシュアワーには交通量が多く、午後は非常に空いています。しかし、なぜ信号が変わる頻度は同じまま...
通信分野における機械学習技術は、ネットワーク事業者がサービス品質を向上させ、利益を増やし、顧客離れを...
マイクロソフトは7月27日、NaturalSpeech2という音声モデルを発表しました。このモデルは...