GPT-4の伝説の「必勝魔法兵器」- MoE(専門家の混合)アーキテクチャ、自分でも作成できます! Hugging Face には機械学習の専門家がいて、完全な MoE システムをゼロから構築する方法を共有しています。 このプロジェクトは作者によって MakeMoE と呼ばれ、注意の構築から完全な MoE モデルの形成までのプロセスを詳細に説明しています。 作者によると、MakeMoE は OpenAI の創設メンバーである Andrej Karpathy の Makemore に触発され、それをベースに作成されたとのことです。 Makemore は、自然言語処理と機械学習の教育プロジェクトであり、学習者がいくつかの基本モデルを理解して実装できるようにすることを目的としています。 同様に、MakeMoE は、学習者が段階的に混合エキスパート モデルを構築する過程で、混合エキスパート モデルをより深く理解できるようにも支援します。 では、この「手指消毒ガイド」では具体的に何について説明しているのでしょうか? MoEモデルをゼロから構築するKarpathy の makemore と比較すると、MakeMoE は孤立したフィードフォワード ニューラル ネットワークを専門家のまばらな混合に置き換え、必要なゲーティング ロジックを追加します。 同時に、プロセスでは ReLU 活性化関数が必要になるため、makemore のデフォルトの初期化方法は Kaiming He メソッドに置き換えられます。 MoE モデルを作成するには、まず自己注意メカニズムを理解する必要があります。 モデルはまず、線形変換によって入力シーケンスをクエリ (Q)、キー (K)、値 (V) で表されるパラメータに変換します。 これらのパラメータは、各トークンを生成するときにモデルがシーケンス内の各位置にどの程度重点を置くべきかを決定する注目度スコアを計算するために使用されます。 テキスト生成時のモデルの自己回帰性を保証するために、つまり、すでに生成されたトークンのみに基づいて次のトークンを予測するために、著者はマルチヘッド因果自己注意メカニズムを使用しました。 このメカニズムは、未処理の位置の注目スコアをマスクを介して負の無限大に設定することで実装され、これらの位置の重みはゼロになります。 マルチヘッド因果関係により、モデルは複数の注意計算を並行して実行でき、各ヘッドはシーケンスの異なる部分に焦点を当てます。 自己注意メカニズムの構成が完了したら、エキスパート モジュールを作成できます。ここでの「エキスパート モジュール」は、多層パーセプトロンです。 各エキスパート モジュールは、埋め込みベクトルをより大きな次元にマッピングし、それを非線形アクティベーション関数 (ReLU など) に渡し、別の線形レイヤーに渡してベクトルを元の埋め込み次元にマッピングし直す線形レイヤーで構成されています。 この設計により、各エキスパートは入力シーケンスの異なる部分の処理に集中できるようになり、各トークンを生成するときにどのエキスパートをアクティブにするかを決定するためにゲーティング ネットワークが使用されます。 したがって、次のステップは、エキスパートを割り当てて管理するコンポーネント、つまりゲーティング ネットワークを構築することです。 ここでのゲーティング ネットワークも線形レイヤーによって実装されており、自己注意レイヤーの出力をエキスパート モジュールの数にマッピングします。 この線形レイヤーの出力はスコア ベクトルであり、各スコアは現在処理されているトークンに対する対応するエキスパート モジュールの重要度を表します。 ゲーティング ネットワークは、このスコア ベクトルの上位 k 個の値を計算し、そのインデックスを記録してから、上位 k 個の最大スコアを選択して、対応するエキスパート モジュールの出力に重み付けします。 トレーニング中にモデルの探索的性質を高めるために、著者らは、すべてのトークンが同じ専門家によって処理されるのを防ぐためのノイズも導入しました。 このノイズは通常、スコア ベクトルにランダムなガウス ノイズを追加することによって実装されます。 結果を取得した後、モデルは、対応するトークンの上位 k 人の専門家の出力と上位 k 人の値を選択的に乗算し、それらを合計して加重合計を形成し、これがモデルの出力を構成します。 最後に、これらのモジュールを組み合わせると、MoE モデルが得られます。 上記のプロセス全体について、著者は対応するコードを提供しており、詳細については元のテキストで確認できます。 さらに、著者は各モジュールを学習しながら直接実行できるエンドツーエンドの Jupyter ノートブックも作成しました。 興味があれば、今すぐ学習を始めましょう! オリジナルリンク: https://huggingface.co/blog/AviSoori1x/makemoe-from-scratch |
私たちは、アルゴリズムの時間計算量や空間計算量についてよく考えます。時間や空間が十分にある場合、その...
Llama2 はオープンソースであり、無料の商用利用をサポートしているため、オープンソースの大規模...
著者: ヨギータ・キナブガッティが編集企画丨孫淑娊適切な機械学習アルゴリズムを選択するにはどうすれば...
パンデミックの間、リモートワークは必須となり、多くのビデオ会議ツールが普及しました。 Zoom は最...
GPT-4 のリリースは AI の歴史に残る大きな出来事であることは間違いありません。しかし、時が経...
Google はどのようにしてわずか数秒で Web ページ全体をさまざまな言語に翻訳するのか、ある...
[[317535]]顔認証決済や指紋認証決済だけでは不十分だ。世界的決済ソリューション大手のマスター...
人工知能 (AI) は、急速に現代の最も変革的なテクノロジーの 1 つとなり、産業を再編し、生産性を...
RPA ツールの使用はここ数年で急増しています。今年のパンデミックにより、組織は、特に RPA が最...
[[436699]] [51CTO.com クイック翻訳]アナリストとして、私はニュースや業界の最新...
さまざまなタスクに人工知能を導入する企業が増えるにつれ、AI モデルのトレーニングはコストがかかり、...
論文リンク: https://browse.arxiv.org/pdf/2211.13976.pdf...