パフォーマンスは 5000 個の H100 でトレーニングされた GPT-4 に近いです。 DeepMindが新世代の大規模モデルを共同開発

最近、InflectionAI は新しい AI モデルをリリースしました。

さらに衝撃的なのは、InfectionAI によるこのモデルの評価です。そのパフォーマンスは、Google と Meta が開発した 2 つのモデルを上回り、OpenAI の GPT-4 に次ぐものです。

InflectionAI がこのような大胆な発言をできるのは、どのようなパフォーマンスによるのでしょうか?

具体的なモデル性能を紹介する前に、まずはその基本情報を見てみましょう。

Inflection-2と呼ばれるこのAIモデルは、多くの標準ベンチマークにおいてGoogleが5月にリリースしたPaLM Large 2モデルを上回り、また、さまざまなプロジェクトにおいてMetaのLLaMA-2を上回りました。

写真

この観点から見ると、InflectionAI は確かにこの自信を持つことができます。

同社関係者によると、全体的に見て、Inflection の新モデルは同種のモデルの中で最も性能が高く、OpenAI がリリースしたフラッグシップモデル GPT-4 に次ぐ性能であると言える。GPT-4 は、周知のとおり、はるかに大規模である。

「我々は、次なる技術進歩の始まりに立ったばかりだと考えています」と、InflectionAIのCEO、ムスタファ・スレイマン氏はインタビューで語った。「AIモデルが実証したパフォーマンスと、これから登場する新機能は本当に衝撃的です。」

Pi に統合しますか?

新モデルの発売に加えて、もう一つ重要な情報があります。

同社によれば、新たにリリースされたモデルは、5月にリリースされたInflectionのチャットボット「Pi」に近々統合される予定だという。

スレイマンCEOはまた、まずモデルの統合にはまだ「調整」という追加作業が必要だと述べた。技術者はPiの口調や応答スタイルをモデルに教え、Piが新たな錯覚を起こさずに最新情報を吸収する際により良く機能するように支援する。

「人種、性別、政治、競合する OpenAI、あるいは今議論を呼んでいる問題について、少しデリケートな会話をしたい場合でも、Pi は非常にスマートかつ慎重にあなたとコミュニケーションを取り、インターネットからリアルタイムで情報を取得します。Pi はまもなく新しいモードを更新します。」

写真

長くは続かない、とスレイマンは言った。しかし、具体的な発売日は明らかにされなかった。

同時に、彼はチャットボットPiの最新のユーザー数を明らかにすることには消極的だったが、Piは非常に人気があり、ユーザーの維持率もかなり高いと語った。

ご存知のとおり、2週間前、OpenAIは、無料のChatGPTサービスの週間ユーザー数が1億人に達したことを発表した。

もちろん、その後は OpenAI の役員会でおなじみの内紛が続き、CEO のサム・アルトマン氏が突然、一時的に解任されました (もちろん、現在は復帰しています)。

しかし、Piのリリース後、InflectionAIのユーザー数も大幅に増加すると予想されます。結局のところ、Inflection がリリースした大規模言語モデルは、現在世界で 2 番目に強力な LLM だと言われています。

LLM業界と比較すると、Inflection-2のリリースにより状況は引き続き不安定な状態が続くでしょう。

さらに、CEOのスレイマン氏は、Inflection AIは今年初めに13億ドルの資金調達ラウンドを実施したばかりだが、この多額の資金調達によってInflection-2のリリースが早まることはなかったと述べた。

しかし、世論の現場ではいくつかの声が聞かれており、InflectionAIは年末に新しいモデルをリリースする予定です。しかし、スレイマン氏は、モデルのトレーニングは完了しており、まだフォローアップ作業が残っているため、リリース時期が遅れていると述べた。

パフォーマンスは他のモデルよりも優れており、GPT-4に劣るだけです。

Inflection-2 をトレーニングするために、Inflection AI は 5,000 個の Nvidia H100 グラフィックプロセッサ (GPU) を使用しました。Inflection-2 の前身モデルは、数千個の比較的古い A100 グラフィックプロセッサを使用してトレーニングされたことに注意してください。

Suleyman 氏は、新しいモデルはトレーニングがより高速かつ安価になったが、それでも依然として大量の計算 (10 の 25 乗 FLOP) を処理できると述べた。

InflectionAI は、Microsoft、Nvidia、CoreWeave とも緊密に連携して、大規模なコンピューティングクラスターを管理しています。

Inflection は、プロフェッショナルレベルのタスクの一般的なベンチマーク (MMLU) で新しいモデルのパフォーマンスをテストしました。このベンチマークでは、さまざまな種類の世界知識から問題解決や倫理に至るまで、57 のトピックに関するさまざまな質問をモデルに尋ねます。

下の図は、Inflection-1（新しいモデルの前身）、Inflection-2、Google の PaLM 2 のパフォーマンス比較を示しています。

写真

Inflection-2 が、HellaSwag、MMLU、TriviaQA Wiki、PIQA、GSM8K、ARC-C を含む 6 つのベンチマークでリードしていることがわかります。

スレイマン氏は、Inflection-2の性能は、LLaMA 2の最大の700億パラメータバージョン、Musk xAIのGrok-1、GoogleのPaLM 2 Large、AnthropicのClaude 2を上回り、その性能はGPT-4に次ぐものだと述べた。

報告書によると、新しいモデルは、7 つの科学的質問応答ベンチマークのうち 2 つを除くすべてで LLaMA 2 および PaLM 2 モデルに勝った。また、3 つの質問応答タスクベンチマークのうち 2 つで最高のパフォーマンスを発揮したが、1 つのテストで PaLM 2 Large に敗れた。

また、4 つの数学およびコーディングのベンチマークでも優れたパフォーマンスを発揮しましたが、これらの領域は以前のテストほど重要ではありません。

しかし、OpenAIが結果を共有した2つのベンチマークでは、GPT-4に大きく遅れをとっています。

スレイマン氏はさらに、これらのベンチマークは AI 研究者や開発者以外の一般人にとってはそれほど重要ではないかもしれないが、小さな改善が、扱いにくいプロトタイプと、製品レベルの信頼性の高い高品質のモデルの違いを生む可能性があると述べた。

全体的に見ると、Inflection-2 はおそらく同種のものの中で最大であり、GPT-4 に非常に近いと Suleyman 氏は考えています。

これらのアクションから、InflectionAI が新しいモデルにどれほど満足しているかもわかります。同社の計画によれば、今後、Inflection はトレーニングの重点を次のモデルに移す予定だ。

関係者は、次のモデル（大胆に推測するとInflection-3）は6か月以内に先ほど説明した新しいモデルの10倍の性能になり、さらに6か月以内に前世代モデルの10倍の性能になると予測しています。

一言で言えば、InflectionAI のスタッフは、12 か月以内にモデルの規模を 100 倍に拡大できると確信しています。

パーソナルアシスタント「Pi」

よく知らない人のために、ここでInflectionAIのパーソナルアシスタント「Pi」についてお話ししましょう。

スレイマンCEOの考えでは、これらすべては非常に一貫していると言えます。

彼はかつて「The Coming Wave」という本を執筆しました。この本の核となる考えは、将来AIが人間を心理的問題から完全に遠ざけることができるというものです。

スレイマンがそのような結論を下した理由は、彼自身の経験に関係しているのかもしれない。

彼は1984年にシリア人の父親とイギリス人の母親のもとに北ロンドンで生まれた。彼は貧困の中で育ち、16歳のとき両親が離婚して二人とも移住し、彼と弟は自活することになった。

彼は後にオックスフォード大学に入学し、哲学と神学を学ぶことになったが、1年後に中退した。

この人生経験により、スレイマンは人間の精神的健康に特別な注意を払うようになりました。もちろん、この部分と新興の新技術の組み合わせは不可欠です。

彼の発言は決して空想ではありません。彼が設立したInflection AIの目標は、人生で誰もが遭遇する可能性のあるほぼすべての問題を解決できる万能のパーソナルアシスタントを開発することです。

このパーソナルアシスタントは「Pi」です。

写真

そして、これらすべてには理論的な根拠があります。

実際に心理学では、チャットボットは人間よりも感情認識力が高いという研究結果があります。

このテストは、さまざまなシナリオで人間が示す共感力を採点します。被験者には、葬儀、仕事での成功、侮辱など、20 の感情的な状況の詳細な説明が与えられ、その状況で感じるであろう感情を説明するよう求められました。

感情の説明が詳細で理解しやすいほど、感情認識レベル尺度 (LEAS) のスコアが高くなります。

研究者らは、人間の反応と同じ基準を使用して ChatGPT の反応を評価し、その結果をフランスで 17 歳から 84 歳の人々 (n = 750) を対象に実施された以前の研究と比較しました。

実施された 2 つのテストでは、ChatGPT は 85 と 98 という高いスコアを達成しましたが、人間のパフォーマンスは AI によって完全に圧倒されました。男性は56点、女性は59点だったが、これは合格点にも満たなかった。

写真

多くの研究結果では、AI チャットボットは、他のツールでは提供できない、メンタルヘルスの面で比類のない支援を人間に提供できることが指摘されています。

他の生産性アプリケーションと比較すると、大規模言語モデルは本質的に感情の理解とコミュニケーションに適していると言えます。結局のところ、言語は人間同士の感情を伝える最も重要な媒体です。

さて、スレイマン氏が設立したInflection AIが発表したパーソナルアシスタント「Pi」は、数か月前からオンラインになっており、そのパフォーマンスについては誰もが心の中で結論を出しているかもしれない。

写真

Pi のログインインターフェースはまだ非常にシンプルであることがわかります。

写真

Pi のチャットページにアクセスし、左下隅のグリッドをクリックすると、ユーザー向けに公式に用意されたいくつかの一般的なシナリオが表示されます。

各シナリオはカスタマイズされた指示に相当します。選択すると、チャットボットの動作環境が自動的に設定されます。

チャットボットは、各シナリオの開始プロンプトをユーザーに提供します。たとえば、「動機」を選択すると、システムはチャットの開始方法をプロンプトします。

写真

全体として、「Pi」はスレイマンの善意を運んでいます。

新モデルInflection-2が加わることで、「Pi」はもっともっと色々なことを引き起こしてくれると信じています。

もしかしたら、それは本当に心理カウンセリングの役割を果たすことができるかもしれません。

参考文献:

https://www.forbes.com/sites/alexkonrad/2023/11/22/inflection-ai-releases-2nd-model-on-gpt-4-heels/?sh=410d2f366b05

<<: 起業180日で評価額20億ドルを達成！ OpenAIの欧州版は人気があり、Llamaの開発者は独自の会社を設立し、Nvidiaが投資している

>>: 量子コンピューティング OpenAI が登場？元Google社員3人のチームが、物理学の限界に挑戦するAIコンピューティングチップを開発するために1億人民元を調達

ブログ

次世代人工知能

ブログ

ライフル銃で動くロボット犬の発明者が恐怖を巻き起こす：プログラミング制御は恐れる必要はない

ブログ

パフォーマンスは 5000 個の H100 でトレーニングされた GPT-4 に近いです。 DeepMindが新世代の大規模モデルを共同開発

Pi に統合しますか?

パフォーマンスは他のモデルよりも優れており、GPT-4に劣るだけです。

パーソナルアシスタント「Pi」

データ構造とアルゴリズムの比較バックスペースを含む文字列!

Nature: DeepMind の大規模モデルが 60 年前の数学的問題を突破、その解決法は人間の認識力を超える

拡散モデルはオートエンコーダです。ディープマインドの研究者は新しいアイデアを提案し、

PyTorch でテンソルを操作するための 5 つの基本関数

次世代人工知能

ライフル銃で動くロボット犬の発明者が恐怖を巻き起こす：プログラミング制御は恐れる必要はない

推薦する

ChatGPT 新学期ギフトパック: 公式教師ユーザーガイドがオンラインになりました

2030年までに、仕事の70％が人工知能に置き換えられるでしょう。子どもたちが競争力を維持できるよう、私たちはどう支援できるでしょうか？

2018 年後半のディープラーニングプロジェクトをお見逃しなく!

200語あれば本一冊分は読める。GPT-3はすでに小説の要約を書くことができる

マイクロソフトは小売業界で新たなスキルを解き放つために人工知能を推進

UAE、AIガバナンスに関する世界的合意を求める

ベイジアンネットワークを使用して病院の患者数を予測する

深い思考 | 大規模モデルの機能の限界はどこにあるのでしょうか?

Google、写真を撮るだけで皮膚疾患を検出するAIツールの新機能を発表

機械学習とコンピュータービジョンのためのトップ 20 画像データセット

古代都市ポンペイを「ハイテク」な方法で訪れるにはどうすればいいでしょうか?

このレーシングAIはもはや短期的な楽しみを求めるのではなく、長期的な戦略を考慮することを学んだ。