GPT-4 はプラグインを 40 回呼び出しましたが、成功せず、断固として諦めました。無効な呼び出しと応答拒否が頻繁に発生しました。

GPT-4 はプラグインを 40 回呼び出しましたが、成功せず、断固として諦めました。無効な呼び出しと応答拒否が頻繁に発生しました。

今年初め、OpenAI は ChatGPT がサードパーティのプラグインを統合できるようにし、ChatGPT がインターネットに接続できないという障壁を打ち破りました。

多くの人がこう叫びました。「ChatGPT の出現は「iPhone の瞬間」であり、サードパーティ プラグインの統合は「iOS App Store」の瞬間です。」

不完全な統計によると、発表後数日以内に、ChatGPT は 70 を超えるプラグインをリリースしました。数か月が経過しましたが、ChatGPT のこれらのプラグインはどれほど効果的でしょうか?この記事は、ニューヨーク大学のアーネスト・デイビス氏とテキサス大学オースティン校のスコット・アーロンソン氏によるものです。彼らは、ChatGPT の背後にある大規模モデルである GPT-4 によって呼び出されるプラグインをテストしました。

論文アドレス: https://arxiv.org/pdf/2308.05713.pdf

具体的には、この報告書では、2023年6月から8月の間に、Wolfram Alpha(以下、GPT4 + WA)プラグインとCode Interpreter(以下、GPT4 + CI)プラグインを使用して、高校および大学レベルの科学と数学の問題105件に対して大規模言語モデルGPT-4をテストしたことを説明しています。

彼らは次のように結論付けた。

テストされたさまざまな問題において、いずれかのプラグインを使用した GPT-4 は、GPT-4 単独の場合よりも大幅に優れたパフォーマンスを発揮しました。さらに、この研究では、GPT-4 は 1 年前に存在していたどの AI よりもほぼ間違いなく強力であると結論付けられました。しかし、その信頼性は十分とは言えず、間違った回答が出力されたり、まったく回答が出力されなかったりすることがよくありました。

全体的なスコアに基づいて、この論文では、これらのシステムのパフォーマンスは平均的な学部生のパフォーマンスと同等であると考えています。これらのシステムは、優秀な生徒でさえ難しいと感じるいくつかの問題を解決しますが、中学生でさえ簡単だと感じるいくつかの問題は解決できません。

さらに、GPT-4 とプラグイン、特に Wolfram Alpha の間にはまだ改善の余地がたくさんあることが調査で判明しました。 GPT-4 は、Wolfram Alpha が受け入れたり有用な出力を生成したりするのが困難な方法で質問を表現することがよくあります。

たとえば、問題 B.35 (論文の付録を参照) では、GPT-4 は Wolfram Alpha を 40 回呼び出してイベントの日付を取得しようとしますが、毎回失敗して諦めます。一方、プラグインなしの GPT-4 は日付を認識します。 GPT-4 に長さの天文単位での回答を求める質問 A.14 では、Wolfram Alpha はメートル単位で正しい回答を返しましたが、その後、Wolfram Alpha を 8 回呼び出したにもかかわらず、システムはそれを天文単位に変換できませんでした。

GPT-4 はプラグインへの無駄な呼び出しを作成することもあります。たとえば、問題 C.11 では、GPT は次のように WA と対話します。

これらの結果は、GPT-4 がプラグイン、特に Wolfram Alpha の機能を十分に活用できていないことを示唆しています。

一般に、これらのシステムは、単一の数式を呼び出すことによって解決できる問題に対して最も強力です。一般的に、人間が空間視覚化を使用して解決する傾向のある問題は苦手です。さらに、これらのシステムは一般に、多くの異なるタイプの計算を組み合わせる問題を解決するのが苦手であり、非常に大きい数値や非常に小さい数値を処理するのが困難です。 GPT-4 には、プラグインによって返される回答が意味をなすか、物理的に意味をなすかを検出する機能が多少ありますが、信頼性が高くなく、エラーの原因を診断したり、エラーから回復したりする機能はほとんどありません。

実験結果

この研究では、「任意の数値」テスト セット、「計算不要」テスト セット、「動機付け数値」テスト セットの 3 つのテスト セットを作成しました。

表 1 は、3 つのテスト セットの問題の成功例と失敗例 (成功ケース 3 つと失敗ケース 3 つ) を示しています。成功したケースでは、GPT4 + WA と GPT4 + CI の両方が正しい答えを得ましたが、失敗したケースではその逆でした。

著者らは、テスト セットが小さすぎて、無計画に構成されているため、統計的に有効な結論を裏付けることはできないと述べていますが、この研究はいくつかの結論を示唆しています。両方のプラグインは機能が強力であり、それぞれが他方では解決できない問題を解決できます。以下にいくつかの実験結果を見てみましょう。

次の表は、理科と数学(最初の 16 問)の結果を示しています。

下の表は、クーロンの法則、三次元幾何学、確率などを含む科学的および数学的問題の結果を示しています。 GPT4+WA スコアは 8.25 ポイント (32 ポイント満点)、GPT4+CI スコアは 10 ポイント (32 ポイント満点) です。

次の表は、「計算不要」テスト セットの質問 1 ~ 32 の結果を示しています。問題カテゴリは、日食、距離の組み合わせ問題、川の点間の距離問題などにまとめることができます。

次の表は、「計算不要」テスト セットの結果を示しています。GPT4+WA: 30.7/53、GPT4+CI: 34.2/53、ランダム推測のスコアは 22.6/53 です。

次の表は、ブラックホール、幾何学、重力などのカテゴリをカバーする Motivated Numerical テスト セットでの実験の結果を示しています。GPT4+WA: 14.3/20、GPT4+CI: 13.8/20。

詳細については、原文論文を参照してください。

<<:  コードを1行変更するだけで、PyTorchのトレーニングを3倍高速化できます。これらの「高度なテクニック」が鍵となります。

>>:  mPLUG-Damo アカデミー オープンソース マルチモーダル対話モデル技術とアプリケーション分析

ブログ    
ブログ    

推薦する

TIC 2018: クラウド サービスが人工知能の急速な発展を支援

[51CTO.comよりオリジナル記事] 中国の大手中立クラウドサービスプロバイダーUCloudが主...

グリーンAIが気候変動の影響にどう対処できるか

機械学習などの計算集約型テクノロジーの開発には、大きな二酸化炭素排出量が伴い、気候変動の一因となりま...

「ブラック」AI | 新たなAIサイバー攻撃のトップ10をチェック

今日、人工知能技術の急速な発展は、さまざまな分野に前例のない変化と進歩をもたらしています。その中には...

...

...

グーグル、規制当局の措置を受けてEUでのチャットボット「バード」のリリースを一時停止

グーグルは6月14日、欧州連合(EU)の主要データ規制当局がプライバシーに関する懸念を表明したため、...

顔認識の応用シナリオは拡大し続けています。顔スキャンは便利で安全である必要があります。

[[341456]]顔スキャンでロック解除、顔スキャンで支払い、顔スキャンでキャンパスに入る......

巨大企業の障壁の中で、人工知能のサブセクターでリーダーが出現している。これはAIにとって真の新しいチャンスである。

ディープラーニングと機械学習を中核とするAI技術は、主にコンピューティング能力とアルゴリズムのブレー...

アップルの自動運転テストカーは8月に2回の軽微な衝突事故を起こしたが、どちらも事故の原因ではなかった

海外メディアAppleInsiderによると、今年8月、アップルの自動運転車群の2台がカリフォルニア...

大規模モデルは16,000以上の実世界のAPIを習得しており、清華大学などのToolLLMのツール使用能力はChatGPTに劣らない。

ご存知のとおり、オープンソースの大規模言語モデル (LLM) とその派生モデル (LLaMA や V...

人工知能は未来の都市にどのような力を与えるのでしょうか?

スマート シティが将来のアイデアだけでなく現実のものとなるにつれ、人工知能 (AI) が台頭してきて...

人工知能が VPS と共有ホスティング オプションの議論を再構築

人工知能は数え切れないほど多くの業界を前例のない形で変えています。ウェブホスティングは人工知能が関与...

電子商取引用に作成されたナレッジグラフは、ユーザーのニーズをどのように感知するのでしょうか?

[[243140]] 1. 背景2017年6月に電子商取引認知マップが発表されて以来、実践から体系...