先月、マイクロソフトのCEOであるサティア・ナデラ氏はIgniteカンファレンスで、自社開発の小型モデルPhi-2は完全にオープンソースとなり、常識推論、言語理解、論理的推論のパフォーマンスが大幅に向上すると発表しました。 本日、Microsoft は Phi-2 モデルとその新しいプロンプト テクノロジである promptbase に関する詳細を発表しました。わずか 27 億のパラメータを持つこのモデルは、ほとんどの常識的推論、言語理解、数学、コーディング タスクで Llama2 7B、Llama2 13B、Mistral 7B を上回り、Llama2 70B との差を縮めています (またはさらに上回っています)。 同時に、Phi-2 はサイズが小さいため、ノートパソコンや携帯電話などのモバイル デバイスでも実行できます。ナデラ氏は、マイクロソフトが最高級の Small Language Model (SLM) と SOTA プロンプト テクノロジを研究開発担当者と共有できることを非常に嬉しく思っていると述べました。 今年 6 月、マイクロソフトは「教科書だけで十分」と題した論文で、わずか 70 億トークンの「教科書品質」データを使用して、13 億パラメータのモデル phi-1 をトレーニングしました。データセットとモデルサイズの点で競合モデルよりも桁違いに小さいにもかかわらず、phi-1 は HumanEval の pass@1 で 50.6%、MBPP で 55.5% の精度を達成しています。 phi-1 は、高品質の「小さなデータ」によってモデルが優れたパフォーマンスを発揮できることを証明しています。 同年9月、マイクロソフトは「教科書だけで十分II:phi-1.5技術レポート」と題する論文を発表し、高品質な「スモールデータ」の可能性をさらに研究した。この記事では、13 億のパラメータを持ち、QA の質問応答、コード、その他のシナリオに適した Phi-1.5 を提案しています。 現在 27 億のパラメータを持つ Phi-2 は、再びその「小さなボディ」を活用して優れた推論機能と言語理解機能を提供し、130 億未満のパラメータを持つ基本言語モデルで SOTA パフォーマンスを実証しています。モデルのスケーリングとトレーニング データ管理における革新により、Phi-2 は複雑なベンチマークにおいて 25 倍のサイズのモデルに匹敵、あるいはそれを上回ります。 Microsoft によれば、Phi-2 は、説明可能性の調査、セキュリティの改善、またはさまざまなタスクに関する実験の微調整を行う研究者にとって理想的なモデルになるという。 Microsoft は、言語モデルの開発を容易にするために、Phi-2 を Azure AI Studio モデル カタログで利用できるようにしました。 Phi-2の主なハイライト言語モデルのサイズが数千億のパラメータに増加したことで、多くの新しい機能が実現し、自然言語処理の状況が再定義されました。しかし、疑問が残ります。これらの新しい機能は、トレーニング戦略の選択 (データ選択など) を通じて、より小規模なモデルで実現できるのでしょうか? Microsoft の答えは、小さな言語モデルをトレーニングすることで大規模モデルと同様のパフォーマンスを実現する Phi シリーズのモデルです。 Phi-2 は、主に 2 つの側面で従来の言語モデルのスケーリング ルールを破ります。 まず、トレーニング データの品質はモデルのパフォーマンスに重要な役割を果たします。 Microsoft は、「教科書品質」のデータに焦点を当てることで、この認識を極限まで高めています。同社のトレーニング データは、科学、日常活動、心理学などの常識的な知識と推論をモデルに教えるために特別に作成された合成データセットで構成されています。さらに、教育的価値とコンテンツの品質に応じてフィルタリングされた、厳選された Web データを使用してトレーニング コーパスをさらに拡張します。 次に、Microsoft は、13 億のパラメータ Phi-1.5 から始めて、27 億のパラメータ Phi-2 に徐々に知識を組み込むことで、革新的な技術を使用して拡張しました。この大規模な知識移転により、トレーニングの収束が加速され、Phi-2 ベンチマーク スコアが大幅に向上します。 下の図 2 は、Phi-2 と Phi-1.5 の比較を示しています。BBH (3 ショット CoT) と MMLU (5 ショット) を除き、他のすべてのタスクは 0 ショットを使用して評価されます。 トレーニングの詳細Phi-2 は、次の単語を予測するように設計された Transformer ベースのモデルで、NLP とコーディング用の合成データセットと Web データセットでトレーニングされ、96 個の A100 GPU で 14 日間かかりました。 Phi-2 は、人間のフィードバックによる強化学習 (RLHF) によって調整されておらず、指示によって微調整されていない基本モデルです。それにもかかわらず、Phi-2 は、下の図 3 に示すように、適応された既存のオープン ソース モデルと比較して、毒性とバイアスの点で依然として優れたパフォーマンスを発揮します。 実験的評価まず、この研究では、以下の複数のカテゴリーを網羅した学術ベンチマークにおいて、Phi-2 と共通言語モデルを実験的に比較します。
Phi-2 には 27 億のパラメータしかありませんが、さまざまな総合ベンチマークにおいて、そのパフォーマンスは 7B および 13B Mistral モデルや Llama2 モデルを上回っています。注目すべきは、Phi-2 が、25 倍大きい Llama2-70B モデルと比較して、マルチステップ推論タスク (コーディングや数学など) でより優れたパフォーマンスを達成していることです。 さらに、小型モデルであるにもかかわらず、Phi-2 のパフォーマンスは、Google が最近リリースした Gemini Nano 2 に匹敵します。 多くの公開ベンチマークがトレーニング データに漏れる可能性があるため、研究チームは、言語モデルのパフォーマンスをテストする最良の方法は、具体的な使用ケースでテストすることであると考えました。そのため、この研究では、複数の Microsoft 社内独自のデータセットとタスクを使用して Phi-2 を評価し、再び Mistral および Llama-2 と比較しました。平均すると、Phi-2 は Mistral-7B よりも優れており、Mistral-7B は Llama2 モデル (7B、13B、70B) よりも優れていました。 さらに、研究チームは、研究コミュニティで一般的に使用されているプロンプトについて広範なテストを実施しました。 Phi-2 は期待どおりに動作しました。たとえば、モデルの物理問題を解決する能力をテストするために使用されるプロンプト (最近、Gemini Ultra モデルの評価に使用) の場合、Phi-2 は次の結果を返しました。 |
<<: CLIPのフォーカスエリアを自由に指定!上海交通大学、復旦大学などがAlpha-CLIPをリリース:フルイメージ+ローカル検出機能を同時に維持
>>: 2年半の訓練を経て、テスラのヒューマノイドロボット「オプティマス2」がオンラインになった。
2018年12月8日、中国国家管弦楽団コンサートホールで、中国工業情報化出版メディアグループが主催し...
無人航空機(口語では「ドローン」と呼ばれる)は、航空業界に無人航空機を導入することで、ライト兄弟の有...
春の始まりの2月4日、世界の注目は北京に集まった。音楽、光、影が流れる中、オリーブの枝に囲まれた巨大...
機械経済は、長年にわたる急速な社会の発展と新しい製造プロセスへの移行によって進化してきました。第一次...
[[416282]]画像ソース: https://pixabay.com/images/id-390...
7月9日、2020年世界人工知能大会(WAIC)クラウドサミットが正式に開幕した。クアルコムのクリス...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
この記事では、パーソナライズされた連合学習に関する 3 つの記事を厳選して詳細に分析します。従来の機...
人工知能 (AI) や機械学習 (ML) プロジェクトを適用する組織が増えるにつれて、これらのプロジ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
最近、大学入試の受験生が試験会場で小校舎を使って問題を検索する問題が大きな論争を引き起こし、大学入試...
1月23日のニュース、今日では、ビデオ監視の存在により、過去には検証が困難だった多くの事実を記録す...
50 年前の kNN アルゴリズムは、わずか 14 行のコードで、BERT などの人気の Trans...