マイクロソフトの小型モデルが大型モデルに勝利:27億のパラメータ、携帯電話で実行可能

マイクロソフトの小型モデルが大型モデルに勝利:27億のパラメータ、携帯電話で実行可能

先月、マイクロソフトのCEOであるサティア・ナデラ氏はIgniteカンファレンスで、自社開発の小型モデルPhi-2は完全にオープンソースとなり、常識推論、言語理解、論理的推論のパフォーマンスが大幅に向上すると発表しました。

本日、Microsoft は Phi-2 モデルとその新しいプロンプト テクノロジである promptbase に関する詳細を発表しました。わずか 27 億のパラメータを持つこのモデルは、ほとんどの常識的推論、言語理解、数学、コーディング タスクで Llama2 7B、Llama2 13B、Mistral 7B を上回り、Llama2 70B との差を縮めています (またはさらに上回っています)。

同時に、Phi-2 はサイズが小さいため、ノートパソコンや携帯電話などのモバイル デバイスでも実行できます。ナデラ氏は、マイクロソフトが最高級の Small Language Model (SLM) と SOTA プロンプト テクノロジを研究開発担当者と共有できることを非常に嬉しく思っていると述べました。

今年 6 月、マイクロソフトは「教科書だけで十分」と題した論文で、わずか 70 億トークンの「教科書品質」データを使用して、13 億パラメータのモデル phi-1 をトレーニングしました。データセットとモデルサイズの点で競合モデルよりも桁違いに小さいにもかかわらず、phi-1 は HumanEval の pass@1 で 50.6%、MBPP で 55.5% の精度を達成しています。 phi-1 は、高品質の「小さなデータ」によってモデルが優れたパフォーマンスを発揮できることを証明しています。

同年9月、マイクロソフトは「教科書だけで十分II:phi-1.5技術レポート」と題する論文を発表し、高品質な「スモールデータ」の可能性をさらに研究した。この記事では、13 億のパラメータを持ち、QA の質問応答、コード、その他のシナリオに適した Phi-1.5 を提案しています。

現在 27 億のパラメータを持つ Phi-2 は、再びその「小さなボディ」を活用して優れた推論機能と言語理解機能を提供し、130 億未満のパラメータを持つ基本言語モデルで SOTA パフォーマンスを実証しています。モデルのスケーリングとトレーニング データ管理における革新により、Phi-2 は複雑なベンチマークにおいて 25 倍のサイズのモデルに匹敵、あるいはそれを上回ります。

Microsoft によれば、Phi-2 は、説明可能性の調査、セキュリティの改善、またはさまざまなタスクに関する実験の微調整を行う研究者にとって理想的なモデルになるという。 Microsoft は、言語モデルの開発を容易にするために、Phi-2 を Azure AI Studio モデル カタログで利用できるようにしました。

Phi-2の主なハイライト

言語モデルのサイズが数千億のパラメータに増加したことで、多くの新しい機能が実現し、自然言語処理の状況が再定義されました。しかし、疑問が残ります。これらの新しい機能は、トレーニング戦略の選択 (データ選択など) を通じて、より小規模なモデルで実現できるのでしょうか?

Microsoft の答えは、小さな言語モデルをトレーニングすることで大規模モデルと同様のパフォーマンスを実現する Phi シリーズのモデルです。 Phi-2 は、主に 2 つの側面で従来の言語モデルのスケーリング ルールを破ります。

まず、トレーニング データの品質はモデルのパフォーマンスに重要な役割を果たします。 Microsoft は、「教科書品質」のデータに焦点を当てることで、この認識を極限まで高めています。同社のトレーニング データは、科学、日常活動、心理学などの常識的な知識と推論をモデルに教えるために特別に作成された合成データセットで構成されています。さらに、教育的価値とコンテンツの品質に応じてフィルタリングされた、厳選された Web データを使用してトレーニング コーパスをさらに拡張します。

次に、Microsoft は、13 億のパラメータ Phi-1.5 から始めて、27 億のパラメータ Phi-2 に徐々に知識を組み込むことで、革新的な技術を使用して拡張しました。この大規模な知識移転により、トレーニングの収束が加速され、Phi-2 ベンチマーク スコアが大幅に向上します。

下の図 2 は、Phi-2 と Phi-1.5 の比較を示しています。BBH (3 ショット CoT) と MMLU (5 ショット) を除き、他のすべてのタスクは 0 ショットを使用して評価されます。

トレーニングの詳細

Phi-2 は、次の単語を予測するように設計された Transformer ベースのモデルで、NLP とコーディング用の合成データセットと Web データセットでトレーニングされ、96 個の A100 GPU で 14 日間かかりました。

Phi-2 は、人間のフィードバックによる強化学習 (RLHF) によって調整されておらず、指示によって微調整されていない基本モデルです。それにもかかわらず、Phi-2 は、下の図 3 に示すように、適応された既存のオープン ソース モデルと比較して、毒性とバイアスの点で依然として優れたパフォーマンスを発揮します。

実験的評価

まず、この研究では、以下の複数のカテゴリーを網羅した学術ベンチマークにおいて、Phi-2 と共通言語モデルを実験的に比較します。

  • ビッグベンチハード(BBH)(CoT付き3ショット)
  • 常識推論(PIQA、WinoGrande、ARCイージー&チャレンジ、SIQA)、
  • 言語理解 (HellaSwag、OpenBookQA、MMLU (5 ショット)、SQuADv2 (2 ショット)、BoolQ)
  • 数学(GSM8k(8ショット))
  • コーディング(HumanEval、MBPP(3ショット))

Phi-2 には 27 億のパラメータしかありませんが、さまざまな総合ベンチマークにおいて、そのパフォーマンスは 7B および 13B Mistral モデルや Llama2 モデルを上回っています。注目すべきは、Phi-2 が、25 倍大きい Llama2-70B モデルと比較して、マルチステップ推論タスク (コーディングや数学など) でより優れたパフォーマンスを達成していることです。

さらに、小型モデルであるにもかかわらず、Phi-2 のパフォーマンスは、Google が最近リリースした Gemini Nano 2 に匹敵します。

多くの公開ベンチマークがトレーニング データに漏れる可能性があるため、研究チームは、言語モデルのパフォーマンスをテストする最良の方法は、具体的な使用ケースでテストすることであると考えました。そのため、この研究では、複数の Microsoft 社内独自のデータセットとタスクを使用して Phi-2 を評価し、再び Mistral および Llama-2 と比較しました。平均すると、Phi-2 は Mistral-7B よりも優れており、Mistral-7B は Llama2 モデル (7B、13B、70B) よりも優れていました。


さらに、研究チームは、研究コミュニティで一般的に使用されているプロンプトについて広範なテストを実施しました。 Phi-2 は期待どおりに動作しました。たとえば、モデルの物理問題を解決する能力をテストするために使用されるプロンプト (最近、Gemini Ultra モデルの評価に使用) の場合、Phi-2 は次の結果を返しました。

<<:  CLIPのフォーカスエリアを自由に指定!上海交通大学、復旦大学などがAlpha-CLIPをリリース:フルイメージ+ローカル検出機能を同時に維持

>>:  2年半の訓練を経て、テスラのヒューマノイドロボット「オプティマス2」がオンラインになった。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

Python 密度クラスタリング アルゴリズム - DBSCAN の実践

この記事の主な内容:序文DBSCAN クラスタリング アルゴリズムパラメータ選択DBSCANアルゴリ...

Microsoft、SAP、Oracle などの世界的なソフトウェア大手は、生成 AI をどのように取り入れているのでしょうか?

2023年は、生成AIテクノロジーが大きな進歩を遂げる年です。ChatGPTなどのAIツールはテク...

AI陣営を理解するためのチャート: AIを学んで間違った側に立つと自滅につながる可能性がある

AIにはさまざまな手法があります。私たちがよく知っている「5大流派」に加え、この記事の著者はAIのさ...

遺伝的アルゴリズムの動作原理を 1 つの記事で理解する (Python 実装付き)

最近、「遺伝的アルゴリズムの紹介とデータ サイエンスにおけるその応用」というタイトルの記事が Ana...

自動運転分野における機械学習アルゴリズムの応用に関する包括的なレビュー

機械学習は、車内外のセンサーからのデータを融合して、運転者の状態を評価し、運転シナリオを分類するため...

データ構造フレームワークの考え方を理解すると、すべてのアルゴリズムは単なる張り子の虎に過ぎない

1. データ構造の保存方法データ構造を保存する方法は、配列 (順次ストレージ) とリンク リスト (...

人工知能の時代において、テクノロジーは中立ではない

インターネットや人工知能に代表される情報技術の台頭により、社会は第三次科学技術革命の時代を迎えていま...

スマートエコノミーの時代において、人工知能技術をどのように活用して、より多くの技術的利益をもたらすことができるのでしょうか?

人工知能技術の急速な発展は、あらゆる分野で技術革新を推進し、多数の新興産業を生み出しました。今後 1...

ディープラーニングフレームワークの競争: TNN vs. MNN、NCNNは依然として定番

近年、「オープンソース」は開発者コミュニティにおける新たなトレンドとなっています。特にディープラーニ...

...

チャットボット vs モバイルアプリ: 未来はどちらの手に?

[[272171]]チャットボットとモバイルアプリの戦いは、常に業界で最も議論されているトピックの...

ビッグデータと人工知能の関係、総合的な分析

ビッグデータはクラウドコンピューティングを採用PaaS レイヤーの複雑な汎用アプリケーションは、ビッ...

AIの時代において、従来の検索エンジンはどこへ向かうのでしょうか?

こんにちは、皆さん。私は Luga です。今日は、人工知能 (AI) エコシステムに関連するテクノロ...

人気の「GPT-4 MIT学部数学フルスコア」論文が不正、データセット自体に問題あり

過去 2 日間で、GPT-4 が MIT EECS と数学の学部試験に満点で合格したという論文が T...