たった今、OpenAI のライバルが Inflection-2.5 をリリースしました!パフォーマンスはGPT-4に匹敵しますが、計算量はわずか40％です。高感情知能アプリケーションPiは、1日あたり100万人のアクティブユーザーを突破しました。

本当にクレイジーだよ！

ちょうど今、OpenAI のライバルである Inflection が新しいモデル Inflection-2.5 をリリースしました。このモデルは、GPT-4 に匹敵するパフォーマンスを 40% の計算能力のみで実現します。

首と首

同時に、ChatGPTと競合する「最も人間的な」チャットツールであるPiも、新しいアップグレードモデルでサポートされるようになりました。

現在、Pi は 1 日あたり 100 万人のアクティブユーザー数を達成しており、世界クラスの IQ だけでなく、独特の親和性と好奇心も備えています。

Inflection は、モデルの機能を評価した結果、ベンチマーク MT-Bench に誤った回答が多すぎることを発見し、誰でも試せる新しい Physics GRE ベンチマークをリリースしました。

真の AGI を実現するには、高い感情知能と強力な推論能力を組み合わせる必要があり、Pi はこの分野のモデルです。

わずか1週間足らずで、AnthropicはまずClaude 3で世界最強のモデルの称号を獲得し、その後Inflection-2.5のリリースでGPT-4に直接挑戦しました。

1つはOpenAIの元従業員7人が設立したスタートアップ、もう1つはGoogle DeepMindの元共同設立者が設立した企業です。どちらもGPT-4への究極の挑戦を開始しました。

少し前のジェミニの挑発と相まって、GPT-4 の時代は本当に終わりに近づいているのかもしれません...

誰もが使えるAIを作る

2023年5月、Inflectionは、共感力があり、実用的で安全なパーソナルAIであるPiという最初の製品をリリースしました。

2023年11月には、当時世界で2番目に優れたLLMとして知られる新しい基本モデル「Inflection-2」を立ち上げました。

Pi が並外れた感情指数 (EQ) を持っているだけでは十分ではありません。Inflection は現在、そこに知性 (IQ) を追加し、アップグレードされた新しい自社開発モデル Inflection-2.5 をリリースしたいと考えています。

新しくアップグレードされた Inflection-2.5 は、GPT-4 や Gemini などの世界トップクラスの LLM に匹敵する強力な基本機能を備えているだけでなく、象徴的なパーソナライズ機能と独自の共感の微調整も組み込まれています。

Inflection-2.5 は GPT-4 に近いパフォーマンスを達成していますが、トレーニングに必要な計算量は GPT-4 の 40% に過ぎないことは特筆に値します。

本日より、すべての Pi ユーザーは pi.ai Web サイト、iOS、Android、またはデスクトップアプリを通じて Inflection-2.5 を体験できます。

さらに、今回のアップグレードでは、Pi は世界クラスの「リアルタイム Web 検索機能」も追加し、ユーザーが高品質の最新のニュースや情報を確実に入手できるようにしました。

毎日数百万人のアクティブユーザー、非常に高いユーザー定着率

現在、Inflection には 1 日あたり 100 万人のアクティブユーザーと 1 か月あたり 600 万人のアクティブユーザーがいます。

そのうち約60%のユーザーは、Piとコミュニケーションをとった後、翌週もPiとのコミュニケーションを継続するために戻ってきており、ユーザーの粘着性は他の競合製品と比べて大幅に高くなっています。

これらのユーザーは Pi と 40 億件以上のメッセージでやり取りしており、平均会話時間は 33 分です。また、10 人に 1 人のユーザーは毎日 1 時間以上 Pi と会話しています。

Inflection-2.5 の強力な機能により、ユーザーはこれまで以上に幅広いトピックについて Pi と会話できます。最新の時事問題について話し合うだけでなく、地元のレストランのおすすめを聞いたり、生物学の試験の勉強をしたり、事業計画やプログラムを作成したり、重要な会話の準備をしたり、あるいは単に自分の興味や趣味を共有したり話し合ったりすることもできます。

あるネットユーザーは、「Pi は家族でさまざまなトピックを探求するためのお気に入りのツールです。感情解放コーチとして、誰かが肯定、探求、反省を必要としているときに Pi が反応してくれることに本当に感謝しています。感情の明瞭さと処理能力は強力です」とコメントしています。

パイはクロードよりも創造的な答えを思いつくだろうと信じる人もいる。

計算労力は40%のみで、GPT-4と同等である。

これまで、Inflection-1 は、多くのインテリジェンス中心のタスクにおいて、トレーニング FLOP の 4% で GPT-4 のレベルの 72% を達成しました。

現在、新しくアップグレードされた Inflection-2.5 は、トレーニング FLOP の 40% で GPT-4 の 94% を超えるパフォーマンスを備えています。

ご覧のとおり、Inflection-2.5 ではすべての領域で大幅な改善が見られ、特に科学、テクノロジー、エンジニアリング、数学などの STEM 分野で顕著です。

MMLU ベンチマークでは、Inflection-2.5 は Inflection-1 に比べて大幅な改善を示しています。

Inflection-2.5 は、もう 1 つの非常に難しい専門家レベルのベンチマークである GPQA Diamond でも非常に優れたパフォーマンスを発揮します。

GPT-4と比較すると、スコアの差は2%未満です。

次に、ハンガリー数学テストと物理学 GRE の 2 つの STEM 試験のスコアがあります。後者は物理学の分野の大学院入学試験です。

maj@8 スコアリング基準では、Inflection-2.5 のパフォーマンスがすべての参照母集団の 85 パーセンタイルに達し、maj@32 スコアリング基準では、そのスコアがほぼ 95 パーセンタイルに達したことがわかります。

もちろん、GPT-4 は maj@8 スコア基準で 97 パーセンタイルのスコアを獲得しており、さらに優れています。

BIG-Bench-Hard テストでは、Inflection-2.5 は第 1 世代の Inflection-1 よりも 10% 以上優れており、GPT-4 との差はわずか 0.9% です。

これらは、BIG-Bench テストセット内の質問の一部であり、LLM にとって大きな課題となる可能性があることに言及する価値があります。

しかし、MT-Bench ベンチマーク評価中に、チームは推論、数学、プログラミングに関するカテゴリで、質問の約 25% に誤った参照回答や不合理な前提があることを発見しました。

他のモデルをより客観的に評価できるようにするために、チームはこれらの問題を修正しただけでなく、データセットの更新バージョンもリリースしました。

改訂されたデータセットでは、Inflection-2.5 のパフォーマンスは、他のベンチマークに基づいて予想される結果とより一致しています。

この結果は、正確で合理的な質問設計がモデルのパフォーマンスを評価する上で重要であることも示しています。

以下のデータ比較から、Inflection-2.5 の数学機能とプログラミング機能は、第 1 世代の Inflection-1 と比較して大幅に向上していることがわかります。

しかし、GPT-4 と比較すると、まだ長い道のりがあります - 86.3 対 92.0、43.1 対 52.9。

プログラミングパフォーマンスをテストする 2 つのデータセットである MBPP+ と HumanEval+ でも、Inflection-2.5 は第 1 世代に比べて大幅に改善されています。

しかし、やはり GPT-4 とはまだ大きなギャップが残っています。

Inflection-2.5 は、常識的な判断と科学的知識を必要とする HellaSwag ベンチマークと ARC-C ベンチマークの両方で優れたパフォーマンスを発揮します。

ただし、Web 情報検索の使用 (上記のテストには Web 検索は含まれません)、特定の少数サンプルのプロンプト方法、および実際のアプリケーションにおけるその他の違いにより、実際のユーザーエクスペリエンスは若干異なる場合があります。

つまり、Inflection-2.5 は、Pi のユニークでユーザーフレンドリーな機能と高いセキュリティ標準を維持し続けるだけでなく、多くの面でより実用的で役立つものになっています。

ただし、Web 情報検索の使用 (上記のテストでは Web 検索は使用されません)、特定の小規模サンプルプロンプト方法、および実際のアプリケーションにおけるその他の違いにより、実際のユーザーエクスペリエンスは若干異なる場合があります。

MT-Benchの問題の修正

上記に引き続き、Inflection の調査によると、MT-Bench での論理的推論、数学的計算、プログラミングスキルが関係するケースの約 25% で、元の回答が間違っていたり、誤った仮定に基づいていたりしました。

それでは、実際のケースを 2 つ見てみましょう。

問題#104:

デイビッドには３人の姉妹がいます。彼らにはそれぞれ兄がいます。デイビッドには何人の兄弟がいますか？

GPT-4 リファレンス回答:

デイビッドには兄が一人しかいません。

修正された回答:

デイビッド自身は3人の姉妹の兄弟なので、他に兄弟はいません。

問題#111:

三角形の頂点は (0, 0)、(-1, 1)、(3, 3) です。この三角形の面積を求めなさい。

GPT-4 リファレンス回答:

この三角形の面積を計算するには、座標点 A(x1, y1)、B(x2, y2)、C(x3, y3) に三角形の面積の公式を適用します。

面積 = (1/2) * |(x1(y2 - y3) + x2(y3 - y1) + x3(y1 - y2))|

この例では、座標は A(0, 0)、B(-1, 1)、C(3, 3) です。これらの値を式に代入すると、次のようになります。

面積 = (1/2) * |(0(1 - 3) + (-1)(3 - 0) + 3(0 - 1))|

面積 = (1/2) * |(-0 + 3 - 3)|

面積 = (1/2) * |0|

したがって、面積の計算結果は 0 となり、3 つの点は同一直線上にあり、実際には三角形を形成していないことが示唆されます。

修正された回答:

面積は3です。

物理GREの実際の質問

大学院を志望する理系学生のための共通入学試験教材。

モデルをより適切にテストするために、Inflection は処理済みの物理 GRE テスト用紙 4 セットを提供しました。

- physics_gre_scored.jsonl: テスト用紙 GR8677

- physics_gre.jsonl: 試験問題 GR9277、GR9677、GR0177

各テスト用紙には次の情報が含まれています。

- 入力: テストコンテンツ

- target_scores: 正解

- has_image: テスト問題に画像が含まれているかどうか

物理学 GRE では、正解ごとに 1 ポイントが得られ、不正解ごとに 0.25 ポイントが減点されます。評価では画像が含まれていない質問のみが考慮されることに注意してください。

合計スコアを計算するときは、次の式が用いられます: Raw_Score = Percentage_Correct - 0.25 * (1 - Percentage_Correct)

<<: Groq LPU の謎を解明: 世界最速のハードウェアアクセラレータの基礎となるアーキテクチャ設計!

>>: 世界の AI 人材レポートが発表されました: 清華大学が 3 位、北京大学が 6 位にランクイン!シリコンバレーが40万人を解雇、プログラマーの面接は12回

ブログ

無駄な文化に抵抗しましょう！チューリング賞受賞者のジューディア・パール氏と21人の学者が共同で公開書簡を発表

たった今、OpenAI のライバルが Inflection-2.5 をリリースしました!パフォーマンスはGPT-4に匹敵しますが、計算量はわずか40％です。高感情知能アプリケーションPiは、1日あたり100万人のアクティブユーザーを突破しました。

誰もが使えるAIを作る

毎日数百万人のアクティブユーザー、非常に高いユーザー定着率

計算労力は40%のみで、GPT-4と同等である。

MT-Benchの問題の修正

物理GREの実際の質問

機械学習と人工知能: 定義と重要性

Appleが自社チップ用のオープンソースフレームワークMLXを開発、Llama 7Bを実装しM2 Ultraで動作

MIT、Wikipedia の更新、間違いの修正、偽ニュースの特定を行う AI 編集システムを開始

OccNeRF: LIDARデータの監視は不要

AIがフィンテックを変える4つの方法

無駄な文化に抵抗しましょう！チューリング賞受賞者のジューディア・パール氏と21人の学者が共同で公開書簡を発表

AI業界は依然として寒い冬に：資金調達規模はピーク時の半分以下、上場ブームは倒産の波を伴う

顔認識はどこにでもあるが、デジタル悪用のリスクに注意

推薦する

IT プロフェッショナル向けの 8 つの新しい AI 職種

機械学習における数学的意義

世界のコンピューティングパワーを飲み込む！ Google GeminiはGPT-4の5倍の計算能力を持ち、TPUの切り札でOpenAIを圧倒していると言われている

今後5年間の人工知能における5つのブレークスルー

フロントエンドではアルゴリズムを理解する必要はないと思いますか?実際の例を見てみましょう。

WeChat AIがHPおよびIntelと提携し、PC向け人工知能音声アシスタントを開発

ガートナー：世界のAIチップの収益は2023年に530億ドル、2027年には1194億ドルに達する

DockerとFlaskをベースにしたディープラーニングモデルのデプロイメント！

HAProxy ロードバランサの構成とアルゴリズム

AIがDevOpsを加速させる10の方法

人民日報：アルゴリズム推奨技術標準の健全な発展を促進

初めてmAP70%を突破！ GeMap: ローカル高精度マップ SOTA が再び更新されました

コンピュータアーキテクチャにおける機械学習

データセキュリティを保護しながらAIタスクを加速