パフォーマンスは 5000 個の H100 でトレーニングされた GPT-4 に近いです。 DeepMindが新世代の大規模モデルを共同開発

パフォーマンスは 5000 個の H100 でトレーニングされた GPT-4 に近いです。 DeepMindが新世代の大規模モデルを共同開発

最近、InflectionAI は新しい AI モデルをリリースしました。

さらに衝撃的なのは、InfectionAI によるこのモデルの評価です。そのパフォーマンスは、Google と Meta が開発した 2 つのモデルを上回り、OpenAI の GPT-4 に次ぐものです。

InflectionAI がこのような大胆な発言をできるのは、どのようなパフォーマンスによるのでしょうか?

具体的なモデル性能を紹介する前に、まずはその基本情報を見てみましょう。

Inflection-2と呼ばれるこのAIモデルは、多くの標準ベンチマークにおいてGoogleが5月にリリースしたPaLM Large 2モデルを上回り、また、さまざまなプロジェクトにおいてMetaのLLaMA-2を上回りました。

写真

この観点から見ると、InflectionAI は確かにこの自信を持つことができます。

同社関係者によると、全体的に見て、Inflection の新モデルは同種のモデルの中で最も性能が高く、OpenAI がリリースしたフラッグシップ モデル GPT-4 に次ぐ性能であると言える。GPT-4 は、周知のとおり、はるかに大規模である。

「我々は、次なる技術進歩の始まりに立ったばかりだと考えています」と、InflectionAIのCEO、ムスタファ・スレイマン氏はインタビューで語った。「AIモデルが実証したパフォーマンスと、これから登場する新機能は本当に衝撃的です。」

Pi に統合しますか?

新モデルの発売に加えて、もう一つ重要な情報があります。

同社によれば、新たにリリースされたモデルは、5月にリリースされたInflectionのチャットボット「Pi」に近々統合される予定だという。

スレイマンCEOはまた、まずモデルの統合にはまだ「調整」という追加作業が必要だと述べた。技術者はPiの口調や応答スタイルをモデルに教え、Piが新たな錯覚を起こさずに最新情報を吸収する際により良く機能するように支援する。

「人種、性別、政治、競合する OpenAI、あるいは今議論を呼んでいる問題について、少しデリケートな会話をしたい場合でも、Pi は非常にスマートかつ慎重にあなたとコミュニケーションを取り、インターネットからリアルタイムで情報を取得します。Pi はまもなく新しいモードを更新します。」

写真

長くは続かない、とスレイマンは言った。しかし、具体的な発売日は明らかにされなかった。

同時に、彼はチャットボットPiの最新のユーザー数を明らかにすることには消極的だったが、Piは非常に人気があり、ユーザーの維持率もかなり高いと語った。

ご存知のとおり、2週間前、OpenAIは、無料のChatGPTサービスの週間ユーザー数が1億人に達したことを発表した。

もちろん、その後は OpenAI の役員会でおなじみの内紛が続き、CEO のサム・アルトマン氏が突然、一時的に解任されました (もちろん、現在は復帰しています)。

しかし、Piのリリース後、InflectionAIのユーザー数も大幅に増加すると予想されます。結局のところ、Inflection がリリースした大規模言語モデルは、現在世界で 2 番目に強力な LLM だと言われています。

LLM業界と比較すると、Inflection-2のリリースにより状況は引き続き不安定な状態が続くでしょう。

さらに、CEOのスレイマン氏は、Inflection AIは今年初めに13億ドルの資金調達ラウンドを実施したばかりだが、この多額の資金調達によってInflection-2のリリースが早まることはなかったと述べた。

しかし、世論の現場ではいくつかの声が聞かれており、InflectionAIは年末に新しいモデルをリリースする予定です。しかし、スレイマン氏は、モデルのトレーニングは完了しており、まだフォローアップ作業が残っているため、リリース時期が遅れていると述べた。

パフォーマンスは他のモデルよりも優れており、GPT-4に劣るだけです。

Inflection-2 をトレーニングするために、Inflection AI は 5,000 個の Nvidia H100 グラフィック プロセッサ (GPU) を使用しました。Inflection-2 の前身モデルは、数千個の比較的古い A100 グラフィック プロセッサを使用してトレーニングされたことに注意してください。

Suleyman 氏は、新しいモデルはトレーニングがより高速かつ安価になったが、それでも依然として大量の計算 (10 の 25 乗 FLOP) を処理できると述べた。

InflectionAI は、Microsoft、Nvidia、CoreWeave とも緊密に連携して、大規模なコンピューティング クラスターを管理しています。

Inflection は、プロフェッショナルレベルのタスクの一般的なベンチマーク (MMLU) で新しいモデルのパフォーマンスをテストしました。このベンチマークでは、さまざまな種類の世界知識から問題解決や倫理に至るまで、57 のトピックに関するさまざまな質問をモデルに尋ねます。

下の図は、Inflection-1(新しいモデルの前身)、Inflection-2、Google の PaLM 2 のパフォーマンス比較を示しています。

写真

Inflection-2 が、HellaSwag、MMLU、TriviaQA Wiki、PIQA、GSM8K、ARC-C を含む 6 つのベンチマークでリードしていることがわかります。

スレイマン氏は、Inflection-2の性能は、LLaMA 2の最大の700億パラメータバージョン、Musk xAIのGrok-1、GoogleのPaLM 2 Large、AnthropicのClaude 2を上回り、その性能はGPT-4に次ぐものだと述べた。

報告書によると、新しいモデルは、7 つの科学的質問応答ベンチマークのうち 2 つを除くすべてで LLaMA 2 および PaLM 2 モデルに勝った。また、3 つの質問応答タスク ベンチマークのうち 2 つで最高のパフォーマンスを発揮したが、1 つのテストで PaLM 2 Large に敗れた。

また、4 つの数学およびコーディングのベンチマークでも優れたパフォーマンスを発揮しましたが、これらの領域は以前のテストほど重要ではありません。

しかし、OpenAIが結果を共有した2つのベンチマークでは、GPT-4に大きく遅れをとっています。

スレイマン氏はさらに、これらのベンチマークは AI 研究者や開発者以外の一般人にとってはそれほど重要ではないかもしれないが、小さな改善が、扱いにくいプロトタイプと、製品レベルの信頼性の高い高品質のモデルの違いを生む可能性があると述べた。

全体的に見ると、Inflection-2 はおそらく同種のものの中で最大であり、GPT-4 に非常に近いと Suleyman 氏は考えています。

これらのアクションから、InflectionAI が新しいモデルにどれほど満足しているかもわかります。同社の計画によれば、今後、Inflection はトレーニングの重点を次のモデルに移す予定だ。

関係者は、次のモデル(大胆に推測するとInflection-3)は6か月以内に先ほど説明した新しいモデルの10倍の性能になり、さらに6か月以内に前世代モデルの10倍の性能になると予測しています。

一言で言えば、InflectionAI のスタッフは、12 か月以内にモデルの規模を 100 倍に拡大できると確信しています。

パーソナルアシスタント「Pi」

よく知らない人のために、ここでInflectionAIのパーソナルアシスタント「Pi」についてお話ししましょう。

スレイマンCEOの考えでは、これらすべては非常に一貫していると言えます。

彼はかつて「The Coming Wave」という本を執筆しました。この本の核となる考えは、将来AIが人間を心理的問題から完全に遠ざけることができるというものです。

スレイマンがそのような結論を下した理由は、彼自身の経験に関係しているのかもしれない。

彼は1984年にシリア人の父親とイギリス人の母親のもとに北ロンドンで生まれた。彼は貧困の中で育ち、16歳のとき両親が離婚して二人とも移住し、彼と弟は自活することになった。

彼は後にオックスフォード大学に入学し、哲学と神学を学ぶことになったが、1年後に中退した。

この人生経験により、スレイマンは人間の精神的健康に特別な注意を払うようになりました。もちろん、この部分と新興の新技術の組み合わせは不可欠です。

彼の発言は決して空想ではありません。彼が設立したInflection AIの目標は、人生で誰もが遭遇する可能性のあるほぼすべての問題を解決できる万能のパーソナルアシスタントを開発することです。

このパーソナルアシスタントは「Pi」です。

写真

そして、これらすべてには理論的な根拠があります。

実際に心理学では、チャットボットは人間よりも感情認識力が高いという研究結果があります。

このテストは、さまざまなシナリオで人間が示す共感力を採点します。被験者には、葬儀、仕事での成功、侮辱など、20 の感情的な状況の詳細な説明が与えられ、その状況で感じるであろう感情を説明するよう求められました。

感情の説明が詳細で理解しやすいほど、感情認識レベル尺度 (LEAS) のスコアが高くなります。

研究者らは、人間の反応と同じ基準を使用して ChatGPT の反応を評価し、その結果をフランスで 17 歳から 84 歳の人々 (n = 750) を対象に実施された以前の研究と比較しました。

実施された 2 つのテストでは、ChatGPT は 85 と 98 という高いスコアを達成しましたが、人間のパフォーマンスは AI によって完全に圧倒されました。男性は56点、女性は59点だったが、これは合格点にも満たなかった。

写真

多くの研究結果では、AI チャットボットは、他のツールでは提供できない、メンタルヘルスの面で比類のない支援を人間に提供できることが指摘されています。

他の生産性アプリケーションと比較すると、大規模言語モデルは本質的に感情の理解とコミュニケーションに適していると言えます。結局のところ、言語は人間同士の感情を伝える最も重要な媒体です。

さて、スレイマン氏が設立したInflection AIが発表したパーソナルアシスタント「Pi」は、数か月前からオンラインになっており、そのパフォーマンスについては誰もが心の中で結論を出しているかもしれない。

写真

Pi のログイン インターフェースはまだ非常にシンプルであることがわかります。

写真

Pi のチャット ページにアクセスし、左下隅のグリッドをクリックすると、ユーザー向けに公式に用意されたいくつかの一般的なシナリオが表示されます。

各シナリオはカスタマイズされた指示に相当します。選択すると、チャットボットの動作環境が自動的に設定されます。

チャットボットは、各シナリオの開始プロンプトをユーザーに提供します。たとえば、「動機」を選択すると、システムはチャットの開始方法をプロンプトします。

写真

全体として、「Pi」はスレイマンの善意を運んでいます。

新モデルInflection-2が加わることで、「Pi」はもっともっと色々なことを引き起こしてくれると信じています。

もしかしたら、それは本当に心理カウンセリングの役割を果たすことができるかもしれません。

参考文献:

https://www.forbes.com/sites/alexkonrad/2023/11/22/inflection-ai-releases-2nd-model-on-gpt-4-heels/?sh=410d2f366b05

<<:  起業180日で評価額20億ドルを達成! OpenAIの欧州版は人気があり、Llamaの開発者は独自の会社を設立し、Nvidiaが投資している

>>:  量子コンピューティング OpenAI が登場?元Google社員3人のチームが、物理学の限界に挑戦するAIコンピューティングチップを開発するために1億人民元を調達

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

プログラマーに必要ないくつかの一般的なソートおよび検索アルゴリズムの概要

序文最近、アルゴリズムの基礎を固めるために、アルゴリズムの本にある基本的なアルゴリズムをもう一度見直...

AI機能をエッジに拡張する方法: ストレージが基盤となる

[[270991]]人工知能技術の復活は、ここ数年の IT に代表される計算能力の大幅な向上が主な要...

AIヒーロー | フェイフェイ・リーのGoogle退社秘話

スタンフォード大学人工知能研究所の公式ツイッターによると、11月20日、フェイフェイ・リー氏がスタン...

AIの世界は「データ」から「知識」へと移行している

人工知能(AI)革命は半世紀以上前に始まりました。過去 10 年間で、人工知能は学術科学の領域から私...

Kevin P. Murphy の「確率的機械学習: 上級」が PDF でダウンロードできるようになりました。

本日、Google の研究科学者 Kevin P. Murphy 氏は、「確率的機械学習: 上級」の...

GoogleのAIチップ設計能力は人間より優れているのか?社内研究者が疑問を呈し解雇された

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

日本の出生率が過去最低を記録、政府は国民が真実の愛を見つけるのを助けるためにAIの助けを求める

[[379564]]日本政府は国民が真実の愛を見つけるのを助けるために AI を活用しています。 (...

クラウドコンピューティングと人工知能が伝統的な医学を覆すのは時間の問題だ

2016年1月、国家衛生計画出産委員会は専門医向けの「5+3+x」標準化研修システムを発行しました。...

人工知能を成功に導く8つのステップ

AI の実装は一度で終わるものではなく、幅広い戦略と継続的な調整のプロセスが必要です。ここでは、AI...

「アルゴリズムとデータ構造」時間と空間の複雑さ

[[361000]]この記事はWeChatの公開アカウント「Unorthodox Front-en...

神々の中年の戦いが始まった。どの国内大型モデルが華山の頂上を勝ち取ることができるのか?

2023年も半ばを過ぎた現在、ビッグモデルは爆発後のメタバースのように冷めることなく、ますます活発...

...

プログラマーの面接でよく聞かれる質問: スケジュールされたタスク スケジューラを設計し、どのようなアルゴリズムとデータ構造を使用するか

学生時代、私は Huya の面接を受けたことがあります。今でもはっきりと覚えている面接の質問がありま...

AIの将来はどうなるのでしょうか?

人間のような知能を実現するという永遠の夢を超えて、AI の将来は消費者市場と商業市場の両方で極めて重...