たった今、OpenAI のライバルが Inflection-2.5 をリリースしました!パフォーマンスはGPT-4に匹敵しますが、計算量はわずか40%です。高感情知能アプリケーションPiは、1日あたり100万人のアクティブユーザーを突破しました。

たった今、OpenAI のライバルが Inflection-2.5 をリリースしました!パフォーマンスはGPT-4に匹敵しますが、計算量はわずか40%です。高感情知能アプリケーションPiは、1日あたり100万人のアクティブユーザーを突破しました。

本当にクレイジーだよ!

ちょうど今、OpenAI のライバルである Inflection が新しいモデル Inflection-2.5 をリリースしました。このモデルは、GPT-4 に匹敵するパフォーマンスを 40% の計算能力のみで実現します。

首と首

同時に、ChatGPTと競合する「最も人間的な」チャットツールであるPiも、新しいアップグレードモデルでサポートされるようになりました。

現在、Pi は 1 日あたり 100 万人のアクティブ ユーザー数を達成しており、世界クラスの IQ だけでなく、独特の親和性と好奇心も備えています。

Inflection は、モデルの機能を評価した結果、ベンチマーク MT-Bench に誤った回答が多すぎることを発見し、誰でも試せる新しい Physics GRE ベンチマークをリリースしました。

真の AGI を実現するには、高い感情知能と強力な推論能力を組み合わせる必要があり、Pi はこの分野のモデルです。

わずか1週間足らずで、AnthropicはまずClaude 3で世界最強のモデルの称号を獲得し、その後Inflection-2.5のリリースでGPT-4に直接挑戦しました。

1つはOpenAIの元従業員7人が設立したスタートアップ、もう1つはGoogle DeepMindの元共同設立者が設立した企業です。どちらもGPT-4への究極の挑戦を開始しました。

少し前のジェミニの挑発と相まって、GPT-4 の時代は本当に終わりに近づいているのかもしれません...

誰もが使えるAIを作る

2023年5月、Inflectionは、共感力があり、実用的で安全なパーソナルAIであるPiという最初の製品をリリースしました。

2023年11月には、当時世界で2番目に優れたLLMとして知られる新しい基本モデル「Inflection-2」を立ち上げました。

Pi が並外れた感情指数 (EQ) を持っているだけでは十分ではありません。Inflection は現在、そこに知性 (IQ) を追加し、アップグレードされた新しい自社開発モデル Inflection-2.5 をリリースしたいと考えています。

新しくアップグレードされた Inflection-2.5 は、GPT-4 や Gemini などの世界トップクラスの LLM に匹敵する強力な基本機能を備えているだけでなく、象徴的なパーソナライズ機能と独自の共感の微調整も組み込まれています。

Inflection-2.5 は GPT-4 に近いパフォーマンスを達成していますが、トレーニングに必要な計算量は GPT-4 の 40% に過ぎないことは特筆に値します。

本日より、すべての Pi ユーザーは pi.ai Web サイト、iOS、Android、またはデスクトップ アプリを通じて Inflection-2.5 を体験できます。

さらに、今回のアップグレードでは、Pi は世界クラスの「リアルタイム Web 検索機能」も追加し、ユーザーが高品質の最新のニュースや情報を確実に入手できるようにしました。

毎日数百万人のアクティブユーザー、非常に高いユーザー定着率

現在、Inflection には 1 日あたり 100 万人のアクティブ ユーザーと 1 か月あたり 600 万人のアクティブ ユーザーがいます。

そのうち約60%のユーザーは、Piとコミュニケーションをとった後、翌週もPiとのコミュニケーションを継続するために戻ってきており、ユーザーの粘着性は他の競合製品と比べて大幅に高くなっています。

これらのユーザーは Pi と 40 億件以上のメッセージでやり取りしており、平均会話時間は 33 分です。また、10 人に 1 人のユーザーは毎日 1 時間以上 Pi と会話しています。

Inflection-2.5 の強力な機能により、ユーザーはこれまで以上に幅広いトピックについて Pi と会話できます。最新の時事問題について話し合うだけでなく、地元のレストランのおすすめを聞いたり、生物学の試験の勉強をしたり、事業計画やプログラムを作成したり、重要な会話の準備をしたり、あるいは単に自分の興味や趣味を共有したり話し合ったりすることもできます。

あるネットユーザーは、「Pi は家族でさまざまなトピックを探求するためのお気に入りのツールです。感情解放コーチとして、誰かが肯定、探求、反省を必要としているときに Pi が反応してくれることに本当に感謝しています。感情の明瞭さと処理能力は強力です」とコメントしています。

パイはクロードよりも創造的な答えを思いつくだろうと信じる人もいる。

計算労力は40%のみで、GPT-4と同等である。

これまで、Inflection-1 は、多くのインテリジェンス中心のタスクにおいて、トレーニング FLOP の 4% で GPT-4 のレベルの 72% を達成しました。

現在、新しくアップグレードされた Inflection-2.5 は、トレーニング FLOP の 40% で GPT-4 の 94% を超えるパフォーマンスを備えています。

ご覧のとおり、Inflection-2.5 ではすべての領域で大幅な改善が見られ、特に科学、テクノロジー、エンジニアリング、数学などの STEM 分野で顕著です。

MMLU ベンチマークでは、Inflection-2.5 は Inflection-1 に比べて大幅な改善を示しています。

Inflection-2.5 は、もう 1 つの非常に難しい専門家レベルのベンチマークである GPQA Diamond でも非常に優れたパフォーマンスを発揮します。

GPT-4と比較すると、スコアの差は2%未満です。

次に、ハンガリー数学テストと物理学 GRE の 2 つの STEM 試験のスコアがあります。後者は物理学の分野の大学院入学試験です。

maj@8 スコアリング基準では、Inflection-2.5 のパフォーマンスがすべての参照母集団の 85 パーセンタイルに達し、maj@32 スコアリング基準では、そのスコアがほぼ 95 パーセンタイルに達したことがわかります。

もちろん、GPT-4 は maj@8 スコア基準で 97 パーセンタイルのスコアを獲得しており、さらに優れています。

BIG-Bench-Hard テストでは、Inflection-2.5 は第 1 世代の Inflection-1 よりも 10% 以上優れており、GPT-4 との差はわずか 0.9% です。

これらは、BIG-Bench テスト セット内の質問の一部であり、LLM にとって大きな課題となる可能性があることに言及する価値があります。

しかし、MT-Bench ベンチマーク評価中に、チームは推論、数学、プログラミングに関するカテゴリで、質問の約 25% に誤った参照回答や不合理な前提があることを発見しました。

他のモデルをより客観的に評価できるようにするために、チームはこれらの問題を修正しただけでなく、データセットの更新バージョンもリリースしました。

改訂されたデータセットでは、Inflection-2.5 のパフォーマンスは、他のベンチマークに基づいて予想される結果とより一致しています。

この結果は、正確で合理的な質問設計がモデルのパフォーマンスを評価する上で重要であることも示しています。

以下のデータ比較から、Inflection-2.5 の数学機能とプログラミング機能は、第 1 世代の Inflection-1 と比較して大幅に向上していることがわかります。

しかし、GPT-4 と比較すると、まだ長い道のりがあります - 86.3 対 92.0、43.1 対 52.9。

プログラミング パフォーマンスをテストする 2 つのデータ セットである MBPP+ と HumanEval+ でも、Inflection-2.5 は第 1 世代に比べて大幅に改善されています。

しかし、やはり GPT-4 とはまだ大きなギャップが残っています。

Inflection-2.5 は、常識的な判断と科学的知識を必要とする HellaSwag ベンチマークと ARC-C ベンチマークの両方で優れたパフォーマンスを発揮します。

ただし、Web 情報検索の使用 (上記のテストには Web 検索は含まれません)、特定の少数サンプルのプロンプト方法、および実際のアプリケーションにおけるその他の違いにより、実際のユーザー エクスペリエンスは若干異なる場合があります。

つまり、Inflection-2.5 は、Pi のユニークでユーザーフレンドリーな機能と高いセキュリティ標準を維持し続けるだけでなく、多くの面でより実用的で役立つものになっています。

ただし、Web 情報検索の使用 (上記のテストでは Web 検索は使用されません)、特定の小規模サンプルプロンプト方法、および実際のアプリケーションにおけるその他の違いにより、実際のユーザー エクスペリエンスは若干異なる場合があります。

MT-Benchの問題の修正

上記に引き続き、Inflection の調査によると、MT-Bench での論理的推論、数学的計算、プログラミング スキルが関係するケースの約 25% で、元の回答が間違っていたり、誤った仮定に基づいていたりしました。

それでは、実際のケースを 2 つ見てみましょう。

問題#104:

デイビッドには3人の姉妹がいます。彼らにはそれぞれ兄がいます。デイビッドには何人の兄弟がいますか?

GPT-4 リファレンス回答:

デイビッドには兄が一人しかいません。

修正された回答:

デイビッド自身は3人の姉妹の兄弟なので、他に兄弟はいません。

問題#111:

三角形の頂点は (0, 0)、(-1, 1)、(3, 3) です。この三角形の面積を求めなさい。

GPT-4 リファレンス回答:

この三角形の面積を計算するには、座標点 A(x1, y1)、B(x2, y2)、C(x3, y3) に三角形の面積の公式を適用します。

面積 = (1/2) * |(x1(y2 - y3) + x2(y3 - y1) + x3(y1 - y2))|

この例では、座標は A(0, 0)、B(-1, 1)、C(3, 3) です。これらの値を式に代入すると、次のようになります。

面積 = (1/2) * |(0(1 - 3) + (-1)(3 - 0) + 3(0 - 1))|

面積 = (1/2) * |(-0 + 3 - 3)|

面積 = (1/2) * |0|

したがって、面積の計算結果は 0 となり、3 つの点は同一直線上にあり、実際には三角形を形成していないことが示唆されます。

修正された回答:

面積は3です。

物理GREの実際の質問

大学院を志望する理系学生のための共通入学試験教材。

モデルをより適切にテストするために、Inflection は処理済みの物理 GRE テスト用紙 4 セットを提供しました。

- physics_gre_scored.jsonl: テスト用紙 GR8677

- physics_gre.jsonl: 試験問題 GR9277、GR9677、GR0177

各テスト用紙には次の情報が含まれています。

- 入力: テストコンテンツ

- target_scores: 正解

- has_image: テスト問題に画像が含まれているかどうか

物理学 GRE では、正解ごとに 1 ポイントが得られ、不正解ごとに 0.25 ポイントが減点されます。評価では画像が含まれていない質問のみが考慮されることに注意してください。

合計スコアを計算するときは、次の式が用いられます: Raw_Score = Percentage_Correct - 0.25 * (1 - Percentage_Correct)

<<:  Groq LPU の謎を解明: 世界最速のハードウェア アクセラレータの基礎となるアーキテクチャ設計!

>>:  世界の AI 人材レポートが発表されました: 清華大学が 3 位、北京大学が 6 位にランクイン!シリコンバレーが40万人を解雇、プログラマーの面接は12回

ブログ    
ブログ    
ブログ    

推薦する

2022年秋の採用戦争:アルゴリズム職は混み合い、Java開発も後退を余儀なくされる

[[411043]]コンピュータサイエンスの卒業生にとって、アルゴリズム関連の職は基本的に「高給」と...

説明可能なAI: 4つの主要産業

[[267801]] AI システムがどのように意思決定を行うかを人々が理解できるようにする説明可能...

JD.com JDataアルゴリズムコンテスト決勝戦が無事終了、優勝賞金30万人民元は「魯班第7号」に

6月6日、JDグループとインテルが共同主催し、単一アルゴリズム競技会の参加者数で世界記録を樹立したJ...

CPU、GPU、NPU、FPGA はディープラーニングでどのように優位性を発揮するのでしょうか?

AIの応用が広まるにつれ、ディープラーニングは現在のAI研究と応用の主流の方法となっています。膨大...

安全で制御可能、かつ法的に準拠した人工知能は金融分野で「原則化」されている

現在、国内の新興デジタルインフラの進歩と、5G、クラウドコンピューティング、ビッグデータなどのモジュ...

とんでもないことだ! UniVision: BEV 検出と Occ 共同統合フレームワーク、デュアルタスク SOTA!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

人工知能を開発するには何が必要ですか?

独自の人工知能システムを構築するにはどうすればよいでしょうか?多くのことと同様に、答えは「それは状況...

中国科学技術大学が提案したCNNとTransformerのデュアルネットワークモデルの精度は84.1%にも達する

[[416636]] Transformer と CNN はどちらも独自の利点を持ち、視覚表現を処理...

...

1.3MB の超軽量 YOLO アルゴリズム!すべてのプラットフォームで利用可能、45% 高速 | オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

エネルギーの未来: 仮想発電所はエネルギー転換を加速できるか?

コペルニクス気候変動サービスによると、2023年は記録上最も暖かい年となっただけでなく、世界の平均表...