OpenAIに挑戦する新しいモデルが無料で利用可能に。GPT-4の40%の計算能力とパフォーマンスに近い

OpenAIに挑戦する新しいモデルが無料で利用可能に。GPT-4の40%の計算能力とパフォーマンスに近い

今週木曜日、アメリカのAIスタートアップ企業Inflection AIが次世代の大規模言語モデルInflection-2.5を正式にリリースした。

Inflection-2.5は、強力なLLM機能とInflectionの特徴である「共感の微調整」を組み合わせ、高い感情知能と高いIQを併せ持ち、オンラインで事実情報を取得でき、そのパフォーマンスはGPT-4やGeminiなどの主要な大規模モデルに匹敵すると報告されています。

Inflection-2.5 は現在、すべての Pi ユーザーが利用でき、PC、iOS、Android アプリで無料で入手できます。 P.S. Synced も簡単なテストを行い、GPT-4 に「近い」(GPT-4 ほど良くはない) だけであることがわかりました。興味のある読者は、自分で体験することができます。

リンク: https://pi.ai/talk

Inflection-2.5 は GPT-4 に近いパフォーマンスを達成している一方で、トレーニング プロセスでは GPT-4 の計算能力の 40% しか使用していないことは注目に値します。

Inflection AIによると、新世代のビッグモデルはコーディングや数学などのIQ分野で特に進歩を遂げたという。これにより、主要な業界ベンチマークが具体的に改善され、Pi がテクノロジーの最前線に留まることが保証されます。 Pi には現在、世界クラスのリアルタイム Web 検索機能も組み込まれており、ユーザーは高品質の最新ニュースや最新情報を確実に受け取ることができます。

Inflection-2.5 と GPT-4

Inflection-1 は GPT-4 トレーニングで使用される FLOP の約 4% を使用し、さまざまな「IQ 指向」タスクでの平均パフォーマンスは GPT-4 レベルの約 72% です。現在、トレーニングに GPT-4 の FLOP の 40% しか使用していないにもかかわらず、Inflection-2.5 の平均パフォーマンスは GPT-4 の 94% 以上に達しています。下の図に示すように、Inflection-2.5 のパフォーマンスは全般的に大幅な改善を達成しており、特に STEM ドメインの知識の改善が最も顕著です。

2 つの異なる STEM 試験 (ハンガリー数学試験と物理学の大学院入学資格試験 (GRE)) における Inflection-2.5 のスコアは次のとおりです。

次の表に示すように、この調査では、Inflection-2.5 を MMLU ベンチマークと GPQA Diamond ベンチマークでも評価しました。 MMLUベンチマークはSTEM、人文科学、社会科学などの分野の57科目をカバーしており、LLMの総合的な知識能力を効果的にテストできます。一方、GPQAダイヤモンドベンチマークは、非常に難しい専門家レベルのベンチマークです。

BIG-Bench-Hard ベンチマークでは、Inflection-2.5 は Inflection-1 よりもパフォーマンスが 10% 以上向上し、GPT-4 に匹敵します。 BIG-Bench-Hard ベンチマークは主に、大規模言語モデルでは難しい問題をカバーします。

この研究は MT-Bench ベンチマークでも評価されています。しかし、研究チームは、推論、数学、コーディングのカテゴリにおけるベンチマークのサンプル例の大部分 (約 25%) に、誤った参照ソリューションや欠陥のある前提があることに気付きました。そこで本研究ではこれらの例を修正し再度評価実験を行った。結果を次の表に示す。

GSM8k および MATH ベンチマークの評価結果によると、Inflection-2.5 は数学およびコーディング機能の点で Inflection-1 よりも大幅に改善されています。

Inflection-2.5 のエンコード機能をさらにテストするために、この研究では 2 つのエンコード ベンチマーク、MBPP+ と HumanEval+ で評価実験を実施しました。結果を次の表に示します。

研究チームは、HellaSwag と ARC-C のほか、さまざまなモデルの常識と科学的ベンチマークで Inflection-2.5 を評価しました。下の図の結果から判断すると、Inflection-2.5 はこれらのベンチマークで優れたパフォーマンスを達成しています。

さらに、上記の評価はすべて、現在 Pi をサポートしているモデルを使用して実行されました。ただし、ネットワーク検索 (上記のベンチマークではネットワーク検索は使用されません)、少数ショットのプロンプトの構造、およびその他の制作面により、ユーザー エクスペリエンスが若干異なる場合があることにも注意が必要です。

全体的に、Inflection-2.5 は Pi の「心のこもった」特性と非常に高い安全基準を維持し、より包括的で有用なモデルになります。

昨今、大規模言語モデルをめぐる技術競争は白熱した段階に入っている。多くのテクノロジー企業の中で、Mistral AI( Mistral Large )とAnthropic( Claude 3 )が目立っており、彼らが提案する新技術はGPT-4やGemini Ultraに近い性能を実現している。昨日登場したInflection-2.5も第一階層に加わるようです。

シリコンバレーのスタースタートアップであるInflection AIは、素晴らしい経歴を持っています。同社は2022年に設立されました。共同創設者の3人は、元DeepMindの共同創設者であるMustafa Suleyman、LinkedInの共同創設者であるReid Hoffman、元DeepMindの主任科学者であるKaren Simonyanです。

昨年6月、Inflection AIは、Microsoft、Nvidia、リード・ホフマン、ビル・ゲイツ、元Google CEOのエリック・シュミットらが主導する13億ドルの資金調達を実施したと発表した。現在、Inflection AI は世界で 4 番目に大きな生成 AI スタートアップ企業となっています。

<<:  Tian Yuandong らの新しい研究: メモリのボトルネックを突破し、4090 で 7B の大規模モデルを事前トレーニング可能に

>>:  ニューラル ネットワークの父、ヒントン氏の最新の演説: デジタル インテリジェンスは生物学的インテリジェンスに取って代わるでしょうか?

ブログ    
ブログ    

推薦する

...

人工知能はよりクールで実用的

2021年は間違いなく人工知能産業の発展にとって重要な年となるでしょう。わが国のスマートシティ建設の...

ビッグデータなどの最も中核的なキーテクノロジー:32のアルゴリズム

[[181277]]オーストリアの記号計算研究所 (RISC) の Christoph Koutsc...

世界図書デー: スマートテクノロジーがいかにして優れた読書環境を作り出すか

4月23日は第25回「世界本の日」です!今日は本を読みましたか?ゴーリキーはかつてこう言った。「本は...

AIがイノベーションの大きな原動力となる理由

近年、人工知能は新興技術から必需品へと徐々に変化してきました。より大規模な企業の問題に対する解決策を...

Transformerを廃止すれば、完全な畳み込みネットワークでもE2E検出を実現できる。

研究者は最近、ターゲット検出のための Transformer の使用を熱心に研究していますが、この論...

医療診断AIプロジェクトを実施するための10のステップ

【51CTO.com クイック翻訳】ヘルスケアのあらゆる側面において、時間は常に最も貴重な部分である...

...

Jenkins 独自のユーザー データベース暗号化アルゴリズムの簡単な分析

Jenkins のアクセス制御は、セキュリティ ドメイン (認証) と承認戦略に分かれています。その...

人間と機械の翻訳対決は韓国で行われる。人工知能の未来は過小評価できない

韓国のソウルで人間の翻訳者と人工知能(AI)翻訳機の対決が行われる。人間の翻訳者が明らかに有利である...

...

顔を自由に編集! Adobe が新世代の GAN アーティファクトを発表: 最大 35 の顔属性の変更をサポート

画像合成における重要な問題は、画像内のエンタングルメント問題です。たとえば、人物の顔にあるすべてのひ...

Googleは報道機関向けにAIツールを展開

Google は、ジャーナリストの記事作成を「支援」すると主張し、新しい人工知能ツール Genesi...