マイクロソフトが27億パラメータのPhi-2モデルを発表、多くの大規模言語モデルを上回る性能を発揮

マイクロソフトが27億パラメータのPhi-2モデルを発表、多くの大規模言語モデルを上回る性能を発揮

マイクロソフトは、Phi-2 と呼ばれる人工知能モデルをリリースしました。このモデルは、その 25 倍の規模を持つ、より大規模で確立されたモデルに匹敵するか、それを上回る優れた性能を発揮します。

マイクロソフトは本日のブログ投稿で、Phi-2 は 27 億のパラメータを持つ言語モデルであり、推論、言語理解、数学、コーディング、常識能力を評価する複雑なベンチマークで他のベースモデルと比較して「最先端のパフォーマンス」を示したと発表した。 Phi-2 は現在、Microsoft Azure AI Studio のモデル カタログを通じて利用可能であり、研究者や開発者は今すぐにサードパーティ アプリケーションに統合できます。

11月のIgniteカンファレンスでマイクロソフトの最高経営責任者サティア・ナデラ氏(写真)が初めて公開したPhi-2は、同社が「教科書品質」と呼ぶデータ、特に知識と、他のモデルによってもたらされる洞察を学習する技術によって強力になっている。

Phi-2 の興味深い点は、伝統的に、大規模言語モデルの能力は常に、パラメータで測定される全体的なサイズと密接に関連していることです。通常、パラメータが大きいモデルの方が強力ですが、Phi-2 の出現によりこの状況は変わりました。

Microsoft によれば、Phi-2 はいくつかのベンチマークで、Mistral AI の 70 億パラメータの Mistral、Meta Platforms の 130 億パラメータの Llama 2 など、より大規模なベースモデルの能力に匹敵するか、あるいは上回っていることを示し、さらにいくつかのベンチマークでは 700 億パラメータの Llama-2 を上回っているという。

おそらく最も驚くべき主張は、先週リリースされた Gemini シリーズの LLM の中で最も効率的な Google の Gemini Nano よりも優れた性能を発揮するという点です。デバイス上のタスク用に設計された Gemini Nano は、スマートフォン上で実行でき、テキストの要約、高度な校正、文法の修正、コンテキストに応じたスマートな返信などの機能を有効にできます。

マイクロソフトの研究者によると、Phi-2 でカバーされるテストは、言語理解、推論、数学、コーディング課題など、広範囲に及ぶという。

同社によれば、Phi-2がこのような優れた結果を達成したのは、推論、知識、常識を教えるために設計された、厳選された教科書レベルのデータで訓練されているためであり、つまり、より少ない情報からより多くのことを学習できるのだ。 Microsoft の研究者は、より小さなモデルから知識を獲得できる技術も使用しました。

注目すべきことに、Phi-2は、AIモデルの動作を改善するためによく使用される、人間のフィードバックに基づく強化学習や指導の微調整などの技術を使用せずに、その優れたパフォーマンスを達成していると研究者らは述べている。これらの技術を使用していないにもかかわらず、Phi-2 は、これらの技術を使用する他のオープンソース モデルよりも、バイアスと有害コンテンツの削減において優れたパフォーマンスを発揮します。同社はこれをカスタマイズされたデータの編集によるものだと考えている。

Phi-2 は、Microsoft の研究者が「小規模言語モデル (SLM)」と呼ぶ一連のモデルの最新版です。このシリーズの最初のモデルは Phi-1 で、今年初めに初めてリリースされ、13 億のパラメータを持ち、基本的な Python コーディング タスク向けに微調整されています。同社は9月に、13億のパラメータを持ち、自然言語プログラミングを使用して生成されたさまざまな合成テキストを含む新しいデータソースを使用してトレーニングされるPhi-1.5をリリースしました。

マイクロソフトは、Phi-2 の効率性により、研究者が AI の安全性、説明可能性、言語モデルの倫理的開発の強化などの分野を研究するのに理想的なプラットフォームになると述べています。

<<:  インテリジェントロボットを活用してビジネス運営を強化する方法

>>:  RayDF: リアルタイムレンダリング!光線に基づく3D再構成の新しい方法

ブログ    
ブログ    

推薦する

Baidu AIは素晴らしいキャンパスライフに新たなタッチを加え、新学期をより技術的に

幼少期、小学校、中学校、高校、大学に至るまで、キャンパスライフはほとんどの人にとって欠かせないもので...

金融AIが外灘サミットでデビュー: 完全な金融知識を備え、同時に数百万人と会話し、金融アドバイスを提供可能

「こんにちは。投資したいお金があります。期待収益は 6 ~ 10 ポイントです。1 年間投資したいと...

...

老子のアルゴリズム思想の分析

前回の記事「屈原と漁師のアルゴリズムの追求」では、屈原が効率的なアルゴリズムを追求したのに対し、漁師...

AI データラベリングとは何ですか?課題は何ですか?

データ注釈はほとんどの人工知能の基盤であり、機械学習とディープラーニング モデルの品質を決定します。...

機械学習を使用して暗号プロジェクトのリスクを特定するにはどうすればよいでしょうか?

暗号通貨と規制の必要性暗号通貨は、デジタル世界に存在する交換手段(別の支払い形式)であり、取引を安全...

...

...

人工知能に関するこの記事を読むことで、90%の人を超えることができる

この記事はeasyAI - 人工知能ナレッジベースから転送されました目次人工知能に関する誤解人工知能...

12の性能項目で1位を獲得、GPT-4に最も近い中国最大級のモデルが登場!いよいよ本格的に営業開始です!

中国はいつになったら、極めて強力な一般化能力を持つさまざまな知的存在を創造し、人類の真の助手となるこ...

人工知能は今後10年間で世界の成長を12%押し上げるだろう

[[206942]]国内外の権威ある20の機関のEconomic Information Daily...

人工知能とデータサイエンスに基づく実用的な分析システムの構築におけるシティバンクの実践経験

シティバンクは、人工知能とデータサイエンスに基づいた実用的な分析システムをどのように構築したのでしょ...

ByteDanceのLi Hang: 言語ビッグモデルに関するいくつかの観察と考察

この記事は、LLM に関する著者の見解を詳しく説明しています。主なポイントは次のとおりです。 Cha...

ハイテク:米国は1キロメートル以内のターゲット認識を実現する長距離顔認識システムを開発

海外メディアの報道によると、最近「ニューサイエンス」誌に次のような記事が掲載された。 「米軍は1キロ...

コンピュータビジョンのための 9 つのオープンソース データセット

[[420140]] [51CTO.com クイック翻訳]オープンソースデータセットを使用してトレー...