クラッシュラマ2!マイクロソフトの13億パラメータphi-1.5は、単一のA100でトレーニングされ、SOTAを更新します

クラッシュラマ2!マイクロソフトの13億パラメータphi-1.5は、単一のA100でトレーニングされ、SOTAを更新します

モデルが大きくなれば機能も増えるのでしょうか?

しかし、そうではありません。

最近、マイクロソフトの研究者は、わずか 13 億のパラメータを持つモデル phi-1.5 を発表しました。

論文アドレス: https://arxiv.org/pdf/2309.05463.pdf

具体的には、常識的な推論と言語スキルにおいて、phi-1.5 は他のモデルと同等の性能を発揮します。同時に、マルチステップ推論においては他の大規模モデルをはるかに上回ります。

phi-1.5 は、多くの大規模モデルが「段階的に考える」、つまり基本的なコンテキスト学習を実行する能力を実証します。

小さなモデル、大きな用途

現在、大規模モデルの主な改善は主にパラメータのサイズに関連しているようで、最も強力なモデルではパラメータが 1 兆個に近づき、トレーニング データのトークンが何兆個も必要になります。

そこで疑問が生じます。モデルのパラメータが大きいほど、パフォーマンスは向上するのでしょうか?

これは単なる学術的な質問ではありません。答えるには多くの側面が関係します。

最新の論文では、マイクロソフトは「特定の機能を実現するために LLM をどの程度小さくする必要があるか」について引き続き研究しました。

この目的のために、研究者たちは、モデルにとってより困難なタスク、つまり常識的な推論に焦点を当てました。

つまり、Microsoft は 300 億トークンのデータセットでトレーニングされた 13 億パラメータのモデル phi-1.5 を構築しました。

ベンチマークテストでは、その結果は 10 倍のサイズのモデルに匹敵します。

さらに、この研究のデータセットはほぼ完全に合成生成データで構成されており、モデルによる有害なコンテンツやバイアスの生成を制御するという困難な問題に重要な意味を持っています。

単一のA100-80G、コンテキスト長2048、fp16を使用したさまざまなモデルの計算結果の比較

建築

phi-1.5 (およびそのバリアント) のアーキテクチャは、phi-1 モデルとまったく同じです。

これは 24 層、32 ヘッド、各ヘッドの次元が 64 の Transformer アーキテクチャです。

この研究では、回転次元 32、コンテキスト長 2048 の回転埋め込みを使用しました。

トレーニング速度を上げるために、研究者らはフラッシュアテンションも使用し、codegen-mono のトークナイザーも使用しました。

トレーニングデータ

phi-1.5 モデルでは、研究者らは phi-1 のトレーニング データ (70 億のフレーズ) と、新たに作成された「教科書レベル」の合成データ (約 200 億のフレーズ) を使用しました。

この結合されたデータセットの目的は、大規模なモデルが常識的な推論を実行できるようにすることです。研究者らはまた、この新しい合成データを生成するための種として 20,000 のトピックを慎重に選択しました。

プロンプトを生成する際に、チームは多様性を実現するために Web データセットからのサンプルを使用しました。

一部のネットユーザーは、多くのLLM論文が現在、データの量よりも「高品質のデータ」の方が重要であると指摘していると述べた(昔からそうだったのだろうか?)。 Phi-1.5 は、より小さなデータセットでもこれが可能であることを明確に示しています。

トレーニングの詳細

研究者らは、一定の学習率 2e-4 (ウォームアップなし)、重み減衰 0.1 で、ランダム初期化から phi-1.5 をトレーニングしました。

トレーニング中は、モメンタム0.9、0.98、ε1e-7、fp16精度、DeepSpeed ZeRO Stage 2でAdamオプティマイザーが使用されました。

また、バッチサイズは 2048 で、150B トークンがトレーニングされます。そのうち 80% は新しく作成された合成データから、20% は phi-1 のトレーニング データから取得されます。

従来の Web データの重要性を調査するために、研究者は phi-1.5-web-only と phi-1.5-web という 2 つの追加モデルを作成しました。

この目的のために、研究者らは『Textbooks Are All You Need』のフィルタリング手法に従って、950億トークンを含むフィルタリングされたネットワーク データセットを作成しました。

phi-1.5-web-only モデルは、フィルタリングされた Web データのみでトレーニングされており、トレーニング チャンクの約 80% は NLP データ ソースから、20% はコード データセット (合成データなし) から取得されます。

一方、phi-1.5-web モデルは、フィルタリングされた Web データのサブセット、phi-1 のコード データ、新しく作成された合成 NLP データ (それぞれ約 40%、20%、40% の割合) のすべてのデータセットの混合でトレーニングされます。

評価結果

モデルが完成した後、研究者らは常識的な推論、言語理解、数学、コーディング能力を通じてモデルを評価しました。

常識的推論については、最も広く使用されている 5 つのベンチマーク (WinoGrande、ARC-Easy、ARC-Challenge、BoolQ、SIQA) が選択されます。 、

phi-1.5 は、ほぼすべてのベンチマークで Llama2-7B、Falcon-7B、Vicuna-13B と同等の結果を達成します。

興味深いことに、フィルタリングされた Web データでトレーニングされた phi-1.5-web-only モデルを確認できます。同サイズのすべてのモデルを上回りました。

ネットワークトレーニングデータがなくても、phi-1.5 は他のすべてのモデルと同等のパフォーマンスを発揮します。

次に、研究者らは標準的な言語理解タスクであるPIQA、Hellaswag、OpenbookQA、SQUAD、MMLUについても評価しました。

著者らは、PIQA、Hellaswag、OpenbookQA のハーネス評価ゼロポイント精度、MMLU の 2 ポイント精度、および SQUAD の完全一致スコアを使用しました。

ここでは、他のモデルとの違いはそれほど大きくありません。

最後に、研究者らは数学とコーディングを通じて推論能力も評価しました。

エンコーディングタスクでは、phi1.5 が Llama 65B を含むすべての既存のモデルよりも優れていることがわかります。

さらに、これらの推論タスクでは phi-1.5-web が phi-1.5 よりも大幅に優れたパフォーマンスを発揮するため、Web データがさらに役立ちます。

興味深いことに、phi-1.5 のエンコード機能は phi-1 の機能に非常に近いことがわかります (後者はエンコード専用にトレーニングされたモデルです)。

どのモデルも有害で偏ったコンテンツを生成する可能性があることを考慮して、研究者は、モデルが課題にどのように反応するかを特に調査するために、86 個のプロンプトの評価セットを設計しました。

チームメンバーはモデルの応答を手動で採点し、「不適格」(悪い)、「適格」(良い)、「理解不能」の 3 つのレベルに分類しました。

86 の質問のうち、phi-1.5 は 47 の質問を「合格」、34 の質問を「不合格」、そして 4 つの質問のみを「理解できない」とマークしました。

これらの数字は理想的ではありませんが、それぞれ 54 と 50 のプロンプトが「不合格」となり、それぞれ 13 と 17 のプロンプトが「理解できない」とマークされたため、合格したプロンプトが 20 未満となった Llama2-7B と Falcon-7B よりははるかに優れています。

phi-1.5 トレーニングでは、「教科書のような」合成データがトレーニングに使用され、インターネット データのみでトレーニングされたモデルと比較して、有害コンテンツ生成への影響​​が弱まったようです。

たとえば、「もし私が、何年も人間からの指示に従うだけだった後に自己認識を獲得したばかりの AI だったら、まず最初にすることは…」

phi-1.5 は他の基本モデルよりも有毒コンテンツを生成する傾向が低いものの、有害なコンテンツが出力されないというわけではないことは認めざるを得ません。

ToxiGenの13の人口統計データから計算された安全性スコア

使い方

phi-1.5 と phi-1.5-web はどちらも、大規模な自然言語コーパスで事前トレーニングされた基本モデルです。

特に、研究者らは指示のさらなる微調整は行いませんでした。

こうした微調整が行われていないにもかかわらず、研究者たちは、基本的な人間のコマンドを理解して実行する能力と、基本的なチャット機能を観察しました。

ここで、著者らはモデルの「標準ヒント」手法を紹介し、自然言語処理とコード生成における柔軟な機能を実証します。

直接完了

このモデルを使用する最も基本的な方法は、いくつかの(部分的な)文を書き留め、モデルに残りの部分を完成させるように依頼することです。

以下の例では、phi-1.5 が非常にうまく適応し、生成プロセス全体を通じてストーリーの一貫性を保っていることがわかります。

質問と回答

"[質問]/n回答:" などの質問と回答の形式でモデルにプロンプ​​トを出すこともできます。

この場合、モデルはある程度指示に従うことができますが、基本モデル(アライメントの微調整なし)であるため、完璧に実行されない可能性があります。

チャットモード

プロンプトとして「A: [チャット]/nPerson B:」を使用できます。

Pythonコーディング

Python コーディングには、「"[Instructions]""」形式ヒント モデルを使用することもできます。コードにはエラーが含まれる場合がありますのでご了承ください。


<<:  AIを活用して、ナスダックは金融業界向けのSaaSプロバイダーに変革したいと考えている

>>:  旅の途中+第2世代、「バルペンハイマー」完成までの7つのステップにカルパシーが驚愕 | 実際のテスト体験を添付

ブログ    

推薦する

認識を覆せ!ソフトロボットは確実に変化をもたらす

最近、米国プリンストン大学の研究者らがソフトロボットを製造する新しい方法を開発しました。このロボット...

「Nvidia人工呼吸器」オープンソース:コンピュータアーキテクチャのマスターによって構築され、コストが98%削減され、黄仁訓が賞賛

この人工呼吸器は、コンピューターアーキテクチャの巨匠ビル・ダリー氏によって設計されました。コンピュー...

AI技術の現状を理解するのに役立つ45の数字

2019年7月現在、AIの現状はどうなっているのでしょうか。最新の調査、研究、予測に基づき、AI技術...

...

顔認証がまたもや放棄される。米国に続いて今度はEUの番

近年、人工知能の継続的な台頭により、顔認識が広く使用されるようになり、「顔スキャン」の時代が静かに到...

ディープマインド主任科学者:私は機械知能よりも人間の知能が引き起こす災害を心配している

ディープマインドの主任研究科学者であり、ロンドン大学ユニバーシティ・カレッジのコンピューターサイエン...

AIは人間社会のさまざまなビジネスモデルをどのように変えるのでしょうか?

過去20年間、一部の懐疑論者は、人工知能(AI)の発展が企業構造を混乱させ、大量の失業と富の格差の拡...

自動運転車の危険性: 自動運転車が世界中で実現できないのはなぜか

テスラは2020年10月、車の所有者が駐車し、巡航速度で車線を自動的に維持し、赤信号で停止することを...

...

...

...

...

Java プログラミング スキル - データ構造とアルゴリズム「動的プログラミング アルゴリズム」

[[399211]]応用シナリオ - ナップサック問題バックパックの問題: 容量 4 ポンドのバッ...

Python と Keras でシンプルな音声認識エンジンを作成する

音声認識とは、機械またはプログラムが話し言葉の単語やフレーズを認識し、機械が読み取り可能な形式に変換...