大規模言語モデル (LLM) には、デコーダーのみの構造 (GPT や LLAMA シリーズ モデルなど)、エンコーダーのみの構造 (BERT など)、エンコーダーとデコーダーの構造 (T5 など)、およびそのバリエーションが含まれており、驚異的な成功を収め、さまざまな言語処理やマルチモーダル タスクで広く使用されています。 この成功にもかかわらず、LLM のトレーニング費用は非常に高いため、それを負担できる企業はごくわずかです。さらに、現在の傾向では、将来的にはさらに大量のトレーニング データが使用されることが示されており、大規模モデルの開発コストはさらに増加することになります。たとえば、LLAMA-1 のトレーニングでは 1 ~ 1.4 TB のトークンが使用されましたが、Llama 2 では 2 TB に達しました。 LLM の開発におけるもう一つの重要な課題は評価です。主流の評価方法は、知識評価(MMLU および C-Eval)と NLP タスク評価の 2 つのカテゴリに分けられます。これらの評価方法では、データ漏洩の問題がある可能性があり、つまり、評価データセットの一部がモデルのトレーニング プロセス中に使用されている可能性があるため、モデルの機能が正確に反映されない可能性があります。さらに、知識指向の評価方法は、知能レベルの評価には適さない可能性があります。より公平で客観的な評価方法は、LLM の知能指数 (IQ)、つまりトレーニング データには見られない条件やコンテキストに LLM がどの程度一般化できるかを測定することです。 成長戦略。トレーニングコストの問題を解決するために、北京人工知能アカデミーや中国科学院コンピューティング技術研究所を含む多くの機関が最近、成長戦略を通じて初めて数千億のパラメータを持つLLMをトレーニングする試みを行っています。成長とは、トレーニング中にパラメータの数が固定されず、小さなモデルから大きなモデルへとスケールアップすることを意味します。
図 1 は成長戦略の典型的な 3 つのシナリオを示しています。 LLM の FLOP はパラメータの数にほぼ比例するため、モデル パラメータの変化の曲線と X 軸の間の領域はトレーニングの計算コストを表すことができます。 図 1 (a) はモデル成長のない標準的なトレーニング戦略を示しています。1 (b) はコストを 50% 節約できる線形成長戦略です。1 (c) はコストを 50% 未満節約できる中程度の成長戦略です。1 (d) はコストを 50% 以上節約できる積極的な成長戦略です。この分析は、コンピューティング コストを可能な限り節約するために、積極的な成長戦略を採用する必要があることを示しています。 この新しい研究における成長演算子の設計は、論文「マスクされた構造的成長による言語モデルの事前トレーニングの 2 倍高速化」の MSG からヒントを得たもので、これは Transformer 構造の 4 つの成長次元すべてをカバーする完全な操作セットです。さらに重要なのは、MSG は機能性を厳密に維持しながら成長できることです。したがって、小さなモデルはより小さなパラメータ検索空間で素早く学習できますが、その知識は後続のより大きなモデルに継承されます。これにより、成長戦略では、同じかそれ以下の計算コストで、より優れたパフォーマンスを実現できるようになります。 オープンソースの FLM-101B モデル。人工知能アカデミーの研究者らは、漸進的成長を通じて1010億のパラメータを持つLLMモデルをトレーニングし、そのモデルをオープンソースとして公開するとも発表した。このモデルのアーキテクチャは FreeLM の進化形です。そのため、研究者たちはそれを FLM-101B と名付けました。F は Free (自由) の略です。 FreeLM フレームワークには、それぞれ言語信号と教師信号によってガイドされる 2 つの事前トレーニング目標があります。この新しい研究では、これら 2 つの目標が一般的な言語モデリング パラダイムに統合されています。 IQ評価ベンチマーク。低コストのトレーニングパラダイムに加えて、チームは、LLM 知能指数 (IQ) 評価の体系的なベンチマークを提案することで、もう 1 つの貢献を果たしました。 これまでの研究では、困惑度レベル (PPL) 指標は生成されたテキストの品質をある程度反映できるものの、信頼できるものではないことが示されています。一方、LLMトレーニングデータの規模は非常に大きいため、モデルが単に知識データを引用しているだけなのか、それとも本研究で定義されるIQの基礎となる人間のような推論、分析、一般化能力を本当に実現しているのかを見分けることは困難です。一般的に使用されている評価メトリック (英語の場合は MMLU、中国語の場合は C-Eval) は明らかに知識指向であり、モデルのインテリジェンス レベルを完全に反映することはできません。 チームは妥当性チェックとして、世界的に有名な大学のコンピューターサイエンス研究者 5 名に C-Eval の化学試験問題を使用して試験を受けてもらい、テストを実施しました。結果は、ボランティアのほとんどが学んだ化学の知識を忘れていたため、彼らの正確さはランダムな推測とほぼ同等であることを示しました。したがって、専門知識の程度を重視する評価ベンチマークは、モデルの IQ を測定するのに十分ではありません。 LLM の IQ を総合的に測定するために、チームは、IQ の 4 つの主要な側面 (シンボル マッピング、ルール理解、パターン マイニング、干渉許容度) を考慮した IQ 評価ベンチマークを開発しました。
もちろん、これら 4 つの指標は LLM IQ 評価の最終版ではありませんが、その後の研究と開発を促す出発点として機能し、最終的には包括的な LLM IQ 評価フレームワークにつながることが期待されます。 この研究の主な貢献は次のとおりです。
FLM-101B 設計概要アーキテクチャの観点から見ると、FLM-101B は FreeLM をバックボーン ネットワークとして使用し、xPos を統合します。モデルのサイズに関しては、新しい成長戦略のおかげで、研究者は 1 回のトレーニングで 16B、51B、101B の 3 つのサイズのモデルを取得できます。 事前トレーニング設定に関しては、FLM-101B は FreeLM のトレーニング戦略を継承します。 成長戦略に関しては、異なるサイズのモデルを個別にトレーニングするという一般的な方法とは異なり、チームは 16B、51B、101B のパラメータを持つ 3 つのモデルを順番にトレーニングすることができ、各モデルは以前のより小さなモデルの知識を継承します。 トレーニングハードウェアとしては、24台のDGX-A800 GPU(8×80G)サーバーのクラスターが使用され、FLM-101Bのトレーニング時間は26日未満でした。その他の並列戦略とモデル構成については、以下の表1と表2を参照してください。 FLM-101Bトレーニング安定性損失発散や勾配爆発などの不安定性の問題を解決するために、研究者らは有望な解決策を提案しました。これについて簡単に説明します。 損失予測。トレーニングの安定性を実現するために新たに提案された方法は次のとおりです。 まず、FLM-16B のトレーニングを開始する前に、データの分布が決定されます。 次に、学習率、初期化標準偏差、出力層のソフトマックス温度を含む 3 つのハイパーパラメータに対してグリッド検索が実行されます。このグリッド検索は、隠れ状態の次元 (つまり、モデル幅) が 256、ヘッドが 2 つ、パラメータが 4000 万のサロゲート モデルを実行することによって実行されました。このプロキシ モデルのその他の構造ハイパーパラメータとトレーニング データはすべて FLM-16B と同じです。 6 ノードでデータ並列処理を使用すると、グリッド検索を 1 回実行するのに 24.6 時間かかりました。これは、24 ノード構成を使用すると、1 回の実行に 6 時間かかることを意味します。 このグリッド検索を通じて、研究者は最適なハイパーパラメータを発見しました。学習率 = 4e-4、標準偏差 = 1.6e-2、ソフトマックス温度 = 2.0 です。 その後、これらのハイパーパラメータを µP を通じて移行し、不安定性の問題を回避したシームレスなトレーニング エクスペリエンスを実現しました。 MSG、LM-51B、FLM-101B の組み合わせでは、その後の成長分岐の問題は発生しませんでした。 図 2 は完全なトレーニング損失曲線を示しています。 混合精度は Bfloat16 によって実現されます。混合精度を使用する目的は、実行時にメモリと時間のコストを節約することです。ここでは Bfloat16 を選択します。 ベンチマーク評価表 3 は、FLM-101B のパフォーマンスを他の強力なベースライン モデル (LLAMA シリーズ モデルおよび GLM-130B) と比較しています。 研究者らは、これらの結果はFLM-101Bが事実知識においては優位性がないということを示しており、より多くのトレーニングデータが使用された場合、そのパフォーマンスは向上し続けるだろうと述べた。 表4は、専門知識評価の観点から見たeFLM-16Bとベースラインモデルの結果を示しています。 専門知識を重視したデータセットのスコアは、特定のトレーニング データが圧倒的な貢献をしている可能性があるため、LLM の知能レベルを反映していないことが判明しました。 表5は各段階でのFLMモデルのパフォーマンスを示しています。 予想どおり、モデルのサイズが大きくなるにつれて、FLM のパフォーマンスが向上します。 FLM-101B は、ほぼすべてのミッションで最高のパフォーマンスを発揮します。つまり、モデルが成長するたびに、前の段階から知識を継承することになります。 IQ実験実験では、LLM の IQ をより体系的に評価するために、ASC のチームは既存の IQ 関連データセットを使用し、必要な変更を加えました。また、新しい合成データも生成しました。 具体的には、彼らが提案した IQ 評価では、主に、シンボル マッピング、ルール理解、パターン マイニング、干渉防止の 4 つの側面を考慮します。これらのタスクには共通する重要な点が 1 つあります。それは、すべてが推論と新しいコンテキストへの一般化に依存していることです。 次の表は IQ 実験の結果を示しています。 これらの表から、これら 4 つの IQ 評価ベンチマークにおいて、FLM-101B は、はるかに低い計算コストで、GPT-3 に匹敵し、GLM-130B よりも優れた結果を達成していることがわかります。 研究者らは、トレーニングデータの影響に加えて、初期段階では小さなモデルが小さな検索空間を絞り込むため、この利点が生じる可能性があると推測しており、この利点は、モデルがさらに大きく広くなり、一般化能力が強化されたときにも引き続き役割を果たしている。 |
>>: 大きなモデルに「深呼吸して一歩ずつ進んでください」と指示すると、驚くほど効果があります。DeepMindは、モデルに指示を与える最も効果的な方法を見つけました。
今日の多くの若い男女にとって、オンラインデートは恋愛関係を見つけるための第一歩です。アメリカでは、こ...
2016年、AlphaGoが人間のチェスプレイヤーであるイ・セドルを破り、人工知能に関する研究と考...
この記事では、人工知能にブロックチェーンが必要な理由、人工知能がブロックチェーンに与える影響、ブロッ...
テンセントテクノロジー(深圳)有限公司は5月13日、人工知能ベースの自動運転方法、デバイス、設備、媒...
レオナルド・ダ・ヴィンチ、ルーベンス、アンディ・ウォーホルが描いた自分の肖像画をもらったらどんなだろ...
ジャクソン氏は過去 8 年間にわたり、このプロジェクトを成熟させるために、社内の他の幹部と協力してき...
[[21488]]サピエンティア大学の以下のビデオをご覧ください。学生たちが中央ヨーロッパの民族舞...
最近、アリババは軽量ディープラーニングエッジ推論エンジン「MNN」を正式にオープンソース化しました。...