「欧州OpenAI」の「最強の7Bオープンソースモデル」であるMistralは、最近、数え切れないほどのファンを魅了しています。 そのテスト指標はあらゆる面で13B Llama2を上回り、多くのネットユーザーにアルパカはそれほど人気がないと感じさせました。 最新のニュースとしては、Mistral AI チームが関連論文を発表し、その背後にある技術的な詳細を明らかにしたことです。 写真 ミストラルはあらゆる面で 13B Llama2 に勝っただけでなく、数学、コード、推論の面でも 34B Llama1 はミストラルに敵いませんでした。 推論タスクでは、Mistral のパフォーマンスは、パラメータ数が 10 倍の Llama2-70B に近いです。 しかし、Mistral はリソースをほとんど消費せず、MacBook をスムーズに動作させるために必要なビデオ メモリは 6 GB だけです。 より少ない消費でより良い結果を達成するために、ミストラルは最善を尽くしました。 それで、ミストラルに関するこの論文はどのような技術情報を明らかにするのでしょうか? 計算能力を削減する複数のメカニズムインフラストラクチャの面では、Mistral は Transformer アーキテクチャに基づいて設計されており、合計 32 個の n_layer と 8192 トークンのコンテキスト長を備えています。 具体的なパラメータは次の表に示されています。 写真 Mistral は、複数の最適化戦略を採用することで、高いパフォーマンスと低い消費量を実現できます。 1 つ目は、計算量を直接削減するコア アテンション メカニズムであり、具体的には 2 つの側面が含まれます。 1 つ目は、スライディング ウィンドウ アテンション メカニズムです。 推論フェーズでは、ウィンドウの長さが設定され、テキスト全体ではなく、分割注意レイヤーの範囲内で注意操作が実行されます。 スライドにより、アテンション レイヤー間に重複が生じ、長いテキスト シーケンスの処理が可能になります。 長さ 4096 では、理論上 131,000 個のトークンを処理できます。 写真 このアテンション メカニズムにより、標準のアテンションに比べて速度を 2 倍に上げることができます。 もう 1 つは、グループ化されたクエリ アテンション メカニズムです。 このメカニズムは、クエリを複数のグループに分割し、各グループがキーのサブセットに対してのみアテンション操作を実行し、結果を連結します。 これにより、計算量が削減されるだけでなく、グループ間の通信回数も削減され、クエリのスループットが向上します。 開発者は、アテンション メカニズムの作業に加えて、ローリング バッファー キャッシュも導入しました。 この保存方法ではバッファのサイズが固定され、メモリ消費量の最大量が制限されます。 写真 バッファゾーンを倉庫に例えると、そこに保管されるすべての新しいアイテムは対応する位置を占めることになります。 倉庫の総容量は固定されており、倉庫がいっぱいになると、最初に入れられたアイテムが取り除かれ、新しいアイテムが倉庫に引き続き入れられます。 ただし、より近い時期に保管されるアイテムは倉庫に残るため、リソースが節約され、一定の長さのシーケンスが保持されます。 このキャッシュ メカニズムを使用すると、バッファ サイズが適切に設定されている限り、予算効率とメモリのバランスを実現できます。 事前充填およびブロッキング機構もあり、繰り返し操作を直接的に削減します。 写真 長い文を処理する必要がある場合は、文を小さなチャンクに分割します。 最初の小さなブロックをトレーニングした後、次のブロックを追加します。 このようにして、ストレージ スペースには長いシーケンスを構築するための以前のブロック情報が保存されます。 この方法により、最初から繰り返し計算する必要がなくなり、効率が向上します。 上記は、Mistral の開発者が使用する最適化戦略です。モデルの一般化能力を評価するために、開発者は HF の公開データセットを使用してガイド付きの微調整を行いました。 その結果、ミストラルのパフォーマンスは、13B パラメータを持つラマ 2 をあらゆる面で上回り、推論能力は 70B バージョンのそれに非常に近づきました。 写真 3090ブロック1つで微調整が可能Mistral の人気は、サードパーティのスタジオが微調整チュートリアルを開始することに直接つながりました。 写真 この方法を使用して微調整すると、ミストラルのパフォーマンスがさらに向上し、消費量が削減されると報告されています。 この微調整プロセスは、3090 1 台だけで完了できます。 最初のステップは、使用目的に応じてデータセットを準備し、それをプロンプト形式に変換して、トレーニング セットと検証セットに分割することです。 次にモデルを初期化し、Mistral をロードして、4 ビット量子化や Lora などのパラメータを設定します。 次のステップは、トレーナーを構築し、データ、モデル、その他の情報を入力して正式にトレーニングを開始し、テストして保存することです。 具体的な詳細は元のチュートリアルに記載されています。 論文アドレス: https://arxiv.org/abs/2310.06825 ファインチューニングチュートリアル: https://wandb.ai/byyoung3/ml-news/reports/Fine-Tuning-Mistral7B-on-Python-Code-With-A-Single-GPU---Vmlldzo1NTg0NzY5 |
<<: Google版AIペイント検索ボックスで直接プレイ! Imagen 上に構築されたネットユーザー: DALL-E の代替品がここにあります
>>: さまざまなオフィスAIを集めて活用すれば、最も効率的な人材になれる
テクノロジーニュースサイト「The Information」によると、人工知能の新興企業Anthro...
機械学習は、非常に幅広い領域をカバーする人工知能の人気のあるサブフィールドです。その人気の理由の 1...
短波赤外線ベースのエレクトロルミネッセンスイメージングは、太陽光発電パネルの欠陥検出に有望です。...
[[257320]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
米国現地時間7月6日水曜日、人工知能の新興企業OpenAIは、「超知能」人工知能システムを誘導・制御...
大規模なマルチモーダルモデルを自動運転の意思決定者として使用すると、驚くほど効果的ですか? Sens...
昨年 4 月、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が共同...
製造業において、インダストリー 4.0 は単なる流行語ではなく、新たな現実となっています。新型コロナ...
21 世紀の急速な都市化は、交通渋滞や汚染から住宅不足や公共サービスの逼迫まで、数多くの課題をもたら...
中小企業、大企業を問わず、コールドコールは製品の売上とビジネスを拡大するための最も効果的な戦略の 1...