OpenAIに挑戦する新しいモデルが無料で利用可能に。GPT-4の40%の計算能力とパフォーマンスに近い

OpenAIに挑戦する新しいモデルが無料で利用可能に。GPT-4の40%の計算能力とパフォーマンスに近い

今週木曜日、アメリカのAIスタートアップ企業Inflection AIが次世代の大規模言語モデルInflection-2.5を正式にリリースした。

Inflection-2.5は、強力なLLM機能とInflectionの特徴である「共感の微調整」を組み合わせ、高い感情知能と高いIQを併せ持ち、オンラインで事実情報を取得でき、そのパフォーマンスはGPT-4やGeminiなどの主要な大規模モデルに匹敵すると報告されています。

Inflection-2.5 は現在、すべての Pi ユーザーが利用でき、PC、iOS、Android アプリで無料で入手できます。 P.S. Synced も簡単なテストを行い、GPT-4 に「近い」(GPT-4 ほど良くはない) だけであることがわかりました。興味のある読者は、自分で体験することができます。

リンク: https://pi.ai/talk

Inflection-2.5 は GPT-4 に近いパフォーマンスを達成している一方で、トレーニング プロセスでは GPT-4 の計算能力の 40% しか使用していないことは注目に値します。

Inflection AIによると、新世代のビッグモデルはコーディングや数学などのIQ分野で特に進歩を遂げたという。これにより、主要な業界ベンチマークが具体的に改善され、Pi がテクノロジーの最前線に留まることが保証されます。 Pi には現在、世界クラスのリアルタイム Web 検索機能も組み込まれており、ユーザーは高品質の最新ニュースや最新情報を確実に受け取ることができます。

Inflection-2.5 と GPT-4

Inflection-1 は GPT-4 トレーニングで使用される FLOP の約 4% を使用し、さまざまな「IQ 指向」タスクでの平均パフォーマンスは GPT-4 レベルの約 72% です。現在、トレーニングに GPT-4 の FLOP の 40% しか使用していないにもかかわらず、Inflection-2.5 の平均パフォーマンスは GPT-4 の 94% 以上に達しています。下の図に示すように、Inflection-2.5 のパフォーマンスは全般的に大幅な改善を達成しており、特に STEM ドメインの知識の改善が最も顕著です。

2 つの異なる STEM 試験 (ハンガリー数学試験と物理学の大学院入学資格試験 (GRE)) における Inflection-2.5 のスコアは次のとおりです。

次の表に示すように、この調査では、Inflection-2.5 を MMLU ベンチマークと GPQA Diamond ベンチマークでも評価しました。 MMLUベンチマークはSTEM、人文科学、社会科学などの分野の57科目をカバーしており、LLMの総合的な知識能力を効果的にテストできます。一方、GPQAダイヤモンドベンチマークは、非常に難しい専門家レベルのベンチマークです。

BIG-Bench-Hard ベンチマークでは、Inflection-2.5 は Inflection-1 よりもパフォーマンスが 10% 以上向上し、GPT-4 に匹敵します。 BIG-Bench-Hard ベンチマークは主に、大規模言語モデルでは難しい問題をカバーします。

この研究は MT-Bench ベンチマークでも評価されています。しかし、研究チームは、推論、数学、コーディングのカテゴリにおけるベンチマークのサンプル例の大部分 (約 25%) に、誤った参照ソリューションや欠陥のある前提があることに気付きました。そこで本研究ではこれらの例を修正し再度評価実験を行った。結果を次の表に示す。

GSM8k および MATH ベンチマークの評価結果によると、Inflection-2.5 は数学およびコーディング機能の点で Inflection-1 よりも大幅に改善されています。

Inflection-2.5 のエンコード機能をさらにテストするために、この研究では 2 つのエンコード ベンチマーク、MBPP+ と HumanEval+ で評価実験を実施しました。結果を次の表に示します。

研究チームは、HellaSwag と ARC-C のほか、さまざまなモデルの常識と科学的ベンチマークで Inflection-2.5 を評価しました。下の図の結果から判断すると、Inflection-2.5 はこれらのベンチマークで優れたパフォーマンスを達成しています。

さらに、上記の評価はすべて、現在 Pi をサポートしているモデルを使用して実行されました。ただし、ネットワーク検索 (上記のベンチマークではネットワーク検索は使用されません)、少数ショットのプロンプトの構造、およびその他の制作面により、ユーザー エクスペリエンスが若干異なる場合があることにも注意が必要です。

全体的に、Inflection-2.5 は Pi の「心のこもった」特性と非常に高い安全基準を維持し、より包括的で有用なモデルになります。

昨今、大規模言語モデルをめぐる技術競争は白熱した段階に入っている。多くのテクノロジー企業の中で、Mistral AI( Mistral Large )とAnthropic( Claude 3 )が目立っており、彼らが提案する新技術はGPT-4やGemini Ultraに近い性能を実現している。昨日登場したInflection-2.5も第一階層に加わるようです。

シリコンバレーのスタースタートアップであるInflection AIは、素晴らしい経歴を持っています。同社は2022年に設立されました。共同創設者の3人は、元DeepMindの共同創設者であるMustafa Suleyman、LinkedInの共同創設者であるReid Hoffman、元DeepMindの主任科学者であるKaren Simonyanです。

昨年6月、Inflection AIは、Microsoft、Nvidia、リード・ホフマン、ビル・ゲイツ、元Google CEOのエリック・シュミットらが主導する13億ドルの資金調達を実施したと発表した。現在、Inflection AI は世界で 4 番目に大きな生成 AI スタートアップ企業となっています。

<<:  Tian Yuandong らの新しい研究: メモリのボトルネックを突破し、4090 で 7B の大規模モデルを事前トレーニング可能に

>>:  ニューラル ネットワークの父、ヒントン氏の最新の演説: デジタル インテリジェンスは生物学的インテリジェンスに取って代わるでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

MWC19 上海 | データセンター 400G ソリューション、AI が未来を拓く

近年、モバイルインターネット、OTTビデオ、VRなどのビジネスアプリケーションの急速な成長に伴い、通...

可視性プラットフォームがセキュリティ オペレーション センター (SOC) にとって重要な理由は何ですか?

ディスプレイ ソリューションは、今日のセキュリティ オペレーション センター (SOC) で必要な複...

目標を達成するために、Google AI は自身の体をこのように変形させました...

[[246219]]強化学習 AI がゲームをプレイすることは珍しくありません。インテリジェントエ...

メイン検索と店内検索の共同最適化の予備調査と試み

背景と概要Taobao プラットフォームには、検索、推奨、広告など、多くのサブシナリオがあります。各...

...

iAnalysis 中国データインテリジェンスアプリケーショントレンドレポート

ビジネスが発展し、テクノロジーが成熟するにつれて、企業はデータの大幅な増加に直面しています。ビッグデ...

2020 年の世界トップ 10 AI ガバナンス イベントと変革トレンドの展望

現在、新世代の人工知能技術が世界中で急成長を遂げており、ビッグデータ、ブロックチェーン、5Gなどの新...

ARMの機能によりIBMの包括的なAI自動化ポートフォリオが強化される

Turbonomic の買収計画により、IBM はビジネスと IT 全体にわたって人工知能の自動化機...

機械学習の博士課程での私の経験から得た洞察

2020 年は非常に困難な年でしたが、私にとってはコーネル大学でコンピューターサイエンスの博士号を取...

公共の場での顔認識は全面的に禁止される可能性があります。ちょうど今、欧州議会はAI規制を強化することを決定した

[[427521]]昨日、欧州議会はAI生体認証技術に基づく大規模な監視の全面禁止を求める決議を可決...

C# 再帰アルゴリズムの理解の例分析

C# 再帰アルゴリズムを理解するということは、単に使いやすいと感じるということではありません。C# ...

将来、自動運転車が世界をどのように変えるか

北京時間12月6日、海外メディアの報道によると、克服すべき障害はまだ多くあるものの、自動運転車の技術...

GPT-4はますます愚かになり、過去の返信をキャッシュしていることが明らかになりました。ジョークが800回言われても、新しい返信は聞きません。

一部のネットユーザーは、GPT-4 が「愚か」になったことを示す別の証拠を発見しました。彼はこう質問...

データ構造とアルゴリズム: 最小全域木、数秒で理解できます!

[[426679]]序文データ構造とアルゴリズムのグラフ理論において、最小全域木アルゴリズムは、比...

...