海外のJavaエンジニアがGPT-4が論理パズルを解くことはできないが推論能力はあることを証明

GPT-4 または LLM には推論機能がありますか?これは長年議論されてきた問題です。

LLM は大量のテキストトレーニングを通じて普遍的な近似検索を獲得するだけであり、実際の推論能力は備えていないと考える人もいます。

しかし、LLM が複数の推論タスクで優れたパフォーマンスを発揮すると主張する研究論文も多数あります。

現在、IMG Arena のシニアソフトウェアエンジニアである Johan LAJILI 氏が自身のブログに記事を掲載し、LLM の「インテリジェント」、「推論」、「論理的」な能力を強く支持しています。

さらに、LLM の推論能力に関する多くの既存の疑問に対して、ヨハンはかなり詳細な説明も行いました。

ブログアドレス: https://lajili.com/posts/post-3/

それでは、ヨハンが LLM に推論能力があることをどのように証明するかを見てみましょう。

LLM は単なる「単語の連鎖」ですか?

「LLM は次の単語を予測する単なるモデルである」というのが、LLM が推論能力を持つことに対する主な反論です。

この見解は、テクノロジーや人工知能に精通した人々から出てくることが多く、実際、まったくその通りです。

動作中、GPT-4 は一度に 1 つの単語 (より具体的には 1 つのトークン) しか予測できません。ユーザーがプロンプトや入力するテキストを入力すると、ニューラルネットワークを使用して、それに続く可能性が最も高い単語を検索します。

しかし、LLM のアルゴリズムをスマートフォンのキーボードの単語提案アルゴリズムと比較するのは、むしろ近視眼的です。

実際、意味のある文章を正確に予測するために、GPT-4 は「オブジェクト」、「時間」、「家族」など、表現できるあらゆる概念を表現する内部的な方法を持っている必要があります。

LLM は、前の単語に関連する単語を見つけるだけでなく、ユーザーの質問に正確に答えるためにこれらの単語の意味も理解する必要があります。

LLM の概念の理解は、大規模なトレーニングを通じて構築されます。

このプロセスを通じて、LLM には「概念」という概念があること、つまり、物理世界にある物事とそれらの間の相互作用を表現できることが確認できます。

これは、GPT-4 が次の単語を予測できるだけでなく、より高レベルの意味概念を理解し、一貫性のある意味のあるテキストを生成できることを意味します。

しかし、「概念」を理解できるだけでは推論には不十分です。推論には、問題を解決するためにさまざまな概念を組み合わせる能力も必要だからです。

LLMはXパズルや論理問題を解くことができない

人工知能技術の進歩により、会話相手が人工知能であるかどうかを人間が判断する必要がある従来のチューリングテストは、ChatGPTの誕生以降、その有効性を失っています。

今日のチューリングテストはより複雑になっています。

同時に、コンテンツが人工知能によって生成されたかどうかを検出できると主張する企業が数多く登場しましたが、これらの試みは大部分が失敗しています。

さらに、プロの言語学者であっても、人工知能によって生成されたコンテンツを区別して識別できない可能性が 50% あります。

AI 生成コンテンツを検出するこれらの失敗した試みは、人間が生成したコンテンツと AI が生成したコンテンツを区別できなくなったことの証拠にすぎません。

現在、AI 生成コンテンツを区別する場合、通常は、文章中に表示される「2021 年 9 月以前のトレーニングに基づいて…」などの記述など、いくつかの明らかな兆候を通じて区別します。

しかし、これは AI にとって不公平です。

それを識別するために使用できる唯一のものが、その書き方の習慣の一部であるならば、その書き方のスキルが人間のそれと似ていると認識できる段階に私たちは明らかに達していることになります。

LLM が推論し、論理パズルを解くことができるかどうかという質問に戻ります。

ジェレミー・ハワード氏は講演の中で、LLM がどのように推論を実行するかをわかりやすく説明しています。

多くの場合、適切で体系的なプロンプトは GPT-4 の結果に大きな影響を与える可能性があります。

ユーザーが問題のコンテキストと論理的な手順を詳しく説明できれば、GPT-4 はこれらのパズルを解くことができる場合がよくあります。

例えば、マイクロソフトリサーチアジア、北京大学、北京航空航天大学などの研究者は、97ラウンドの「ソクラテス式」の厳密な推論を通じて、GPT-4に「P≠NP」という結論を導き出すことに成功しました。

論文アドレス: https://arxiv.org/abs/2309.05689

人間とは異なり、GPT-4 は思考と話し言葉を区別しません。

人間にとって、考えずに、あるいは無意識に問題が解決されるということは、その質問が非常に単純であり、本質的には記憶から答えられることを意味します。

たとえば、2x8 を計算するとき、私たちは脳で考えなくても答えが 16 であるという結論にすぐに達します。

しかし、複雑な数学の問題を解いたり、なぞなぞを解いたり、プログラミングの問題を解いたりする場合は、質問に答える前に心の中で考えなければなりません。

そしてこれが推論です。

より複雑な問題の場合は、答えを出す前にまずその解決方法を検討する必要があるかもしれません。

この点で、GPT-4 は人間と区別がつきません。

しかし、GPT-4 の思考プロセスはその応答の一部と見ることができます。

おそらく将来の GPT-5 には応答用の「思考」セクションが追加されるでしょうが、デフォルトでは表示されません。

GPT-4 が推論機能を持つかどうかは、実際にはコストと効率の問題にすぎません。

レストランでの食事の見積もりや確定申告の際に同じレベルの二重チェックが行われないのと同様に、GPT-4 がユーザーからの質問ごとに詳細な理由を検討するのは非常に非効率的です。

LLM 幻覚と意識

LLM のもう一つの典型的な問題は、これらのモデルがバイアスと幻覚に悩まされることです。

これは確かに難しい問題ですが、LLM が推論を実行できないことを意味するものではありません。

たとえば、人間は偏見から免れることはできません。これを理解する人もいれば、考えたこともない人もいるでしょう。

近代以前、人々は地球が宇宙の中心であり、空気は「無」であると固く信じていました。

しかし、このことから近代以前の人々には推論能力がなかったと結論づけることができるでしょうか?

同様に、モデルが間違いを犯したからといって、そのモデルが推論できないということではありません。

なぜなら、正しいこと、あるいは継続的に正しいことは推論の定義ではなく、全知の定義だからです。

しかし、GPT-4 に意識があるかどうかについては、私の答えは「ノー」です。

意識の存在は非常に哲学的な問題であり、ある程度は個人の見解に依存します。

しかし、意識は長い時間をかけて生まれ、それを管理する「自己」を必要とすると私は考えています。

ユーザーが GPT-4 を開いてチャットボックスで会話を開始することを選択するたびに、実際にはまったく新しい存在が作成されます。

会話終了後、この存在は削除されます。あるいは静的な状態のままです。

長期記憶の欠如、感情の欠如、外部刺激に対する自発的な反応の欠如はすべて、意識の出現を妨げる制限要因です。

しかし、これらの問題は将来解決されるだろうと楽観視することもできます。

おそらく、今まさにこれらの問題を研究している賢い人々のグループが存在するのでしょう。

GPT-4 が意識を持っているかどうかは、意識のパズルのほんの一部にすぎません。

<<: マルチモーダルな大型モデルの幻覚が 30% 減少しました。 USTCらが初の錯視補正フレームワーク「Woodpecker」を提案

>>: デジタルテクノロジーは小売業界をどのように変えているのでしょうか?

海外のJavaエンジニアがGPT-4が論理パズルを解くことはできないが推論能力はあることを証明

LLMはXパズルや論理問題を解くことができない

LLM 幻覚と意識

5分でPythonのランダムヒルクライミングアルゴリズムをマスターする

Oracle データベース LRU アルゴリズムの詳細な説明: LRU チェーン、ダーティブロック、ダーティ LRU チェーン

2022年の7つの最先端技術：量子シミュレーションと標的遺伝子治療

現実世界の問題を解決するための 4 つの機械学習戦略

インドの天才数学者ラマヌジャンが残した3000以上の魔法の公式をAIに「証明」させる！

マイクロソフトの無料 AI エッセイ採点ソフトウェアがアップグレード: IELTS、CET-4、CET-6 に使用可能

旅行を恥ずかしがる必要はありません。国内の観光地がAIを導入し、スマートな旅行の新たなシナリオを実現

Googleの研究者が自撮りカメラ用の顔歪み防止アルゴリズムを開発

推薦する

GenAIがより良い回答を提供するためのヒント

IoT技術は2024年までに成熟する

顔認識はどのように機能しますか?

人工知能は、新たな技術と産業の変化のトレンドになりつつある

AIがスマートグリッドにもたらす革新

AI声優が偽の声を本物らしくする方法

IBM LinkedIn が教えてくれる: 職場と AI はどれくらい離れているのか?

RSAは暗号化アルゴリズムへのバックドアの追加を否定

AIの冬が来ます！ディープラーニングはスケールしません...

マイクロソフトは、重大なセキュリティ脆弱性を97%の精度で特定できるAIシステムを開発した。

テスラは、Dojo スーパーコンピューターの秘密を盗み、偽のコンピューターを使用して検査を欺いたとして元エンジニアを訴える

LlamaIndex と ChatGPT を使用したコードレス検索拡張生成 (RAG)