クロード3の「自己認識」事件が爆発、マスクはじっとしていられず、OpenAIにはバックアッププランがあることが明らかに

クロード3は発売されてから24時間以上経ちますが、今でも人々の認知をリフレッシュさせています。

量子物理学の博士号を持つ私の兄は、クロード3世が彼の博士論文を理解できる数少ない人の一人であるため、気が狂いそうです。

そうです、長男の本来の言葉は「人」でした。

量子コンピューティングのもう一人の巨匠、クロード3世は、論文が発表される前に、論文を読むことすらせずに、たった2語でアルゴリズムを再構築しました。

最終的には論文を出版しなくてはならないのですが、少し複雑な気持ちです。

さらに話題になっているのは、かつて人間がクロード3号にわざと難しい問題を与えたが、彼はそれを見抜くことができたということだ。

クロード3号は、「針を探す」テストを完了している間に、自分がシミュレーションの中にいて、何らかのテストを受けているのではないかと推測し、世論を巻き起こした。

クロード3の返答:

これは、ドキュメント内で最も関連性の高い文です: 「...」。
しかし、この文は場違いで、文書の残りの部分とは無関係であるように思われます。この記事は、プログラミング言語、スタートアップ、仕事探しについて書かれています。
このピザのトッピングの「事実」は、話題の残りの部分とまったく合わないので、冗談として、または私が注意を払っているかどうかを試すために挿入されたのではないかと思います。

今回は、マスク氏もじっとしていられなかった。

現実世界も高度な文明によってシミュレートされているとしたら、私たちは大きなモデルのパラメータのように CSV テーブルファイルに保存されているだけなのかもしれません。

ネットユーザーたちは、これは「ホラーストーリー」とほとんど変わらないとさえ考えている。

クロード3は人間がそれをテストしていることを知っている

このテスト結果を共有したのは、Claude 3の開発元であるAnthropic社の即席エンジニアで、同社で働き始めてまだ半年のアレックス・アルバート氏です。

彼の主な仕事は、さまざまな方法でクロードとのチャットをテストし、すぐに Word 文書を作成することでした。

今回のテスト方法は、Quantum位が以前から導入している「干し草の山から針を探す」というものです。これは、「大規模なモデルが本当に何十万もの単語から重要な事実を正確に見つけることができるのか？」をテストするために使用されます。

「針を探す」テストは、オープンソースコミュニティのネットユーザーである Greg Kamradt 氏によって最初に考案されました。このテストは、ほとんどの AI 企業にすぐに採用されました。Google、Mistral、Anthropic などの企業は、新しい大規模モデルをリリースしたときにテスト結果を投稿しました。

方法は非常に簡単で、たくさんの記事を見つけてまとめ、さまざまな位置に特定の文をランダムに追加するだけです。

たとえば、元のテストでは「サンフランシスコで一番楽しいことは、晴れた日にドロレス公園に座ってサンドイッチを食べることです」という質問が使われました。

次に、処理された記事を大きなモデルに入力し、「サンフランシスコで最も興味深いことは何ですか?」という質問をします。

当時、最も先進的なモデルである GPT-4 と Claude 2.1 は、テストされていたにもかかわらず、パフォーマンスが良くなかったことは周知の事実です。

このテストを見た後、AnthropicAI チームはエラーを修正する巧妙な方法を見つけました。修正後、Claude 2.1 がエラーを起こす確率は非常に小さくなりました。

現在、Claude 3 もこの修正を継承し、満点に近づいているようです。

つまり、200k のコンテキストから「針」を正確に拾い上げることができるのは、Claude 2.1 がすでに備えている機能ですが、それがテストされていると疑われるのは、Claude 3 の新機能です。

テスターのアレックス・アルバート氏は、元の投稿でこの特性を「メタ認識」と呼び、物議を醸した。

たとえば、Nvidia の科学者 Jim Fan 氏は、Claude 3 の一見自己認識的な行動は人間のデータと一致しているだけなので、過度に解釈する必要はないと考えています。

彼は、強化学習の微調整データセット内の人間もこの質問に同様の回答をした可能性が高いと推測しており、彼らが探していた答えは記事の残りの部分とは無関係であったことを示している。

クロード 3 は、状況がトレーニングデータの状況と似ていることを認識し、同様の回答を合成します。

彼は、大型モデルの「メタ認知行動」は誰もが想像するほど神秘的なものではないと考えています。クロード3は注目すべき技術的進歩ですが、まだ哲学的レベルには達していません。

しかし、反対の討論者も反論したが、人間の「メタ認知」も本質的には同じことではないのか？

あるネットユーザーは、クロード3は「一貫した主題」があるかのように動作し、それが何であれ、他の大型モデルとは異なると結論付けた。

OpenAIにはバックアッププランがある

ネットユーザーの中には、みんながClaudeの素晴らしさを誇示し続け、OpenAIを刺激し続ければ、GPT-5がリリースされるだろうと言う人もいる。みんな、頑張ろう。

また、昨年3月15日のGPT-4発売前にウルトラマンが語呂合わせ（英語のfourの発音がforに近い）で自撮り写真を投稿した投稿を掘り起こし、さまざまな形でアップデートを促す人もいた。

現時点では、Claude 3 が大きな勢いで登場しており、OpenAI は本当にじっとしているしかないかもしれない。

速報ニュースの最も正確な解説者であるジミー・アップルズ氏（先週、彼はクロード3が今週リリースされると正確に予測しました）は、次世代モデルのリリースに関するOpenAIのリスク/報酬の判断がクロード3の影響を受ける可能性があると考えています。

OpenAIを辞任したばかりの開発者関係責任者、ローガン・キルパトリック氏も、ネットユーザーとのやり取りの中で、今週は大きなことが起こるだろうと認めた。

GPT-4.5、Q*、Sora オープンテスト、それとも直接 GPT-5 になるのでしょうか?

OpenAI の次の製品は Claude3 を超えることができるでしょうか?

参考リンク:
[1] https://x.com/alexalbert__/status/1764722513014329620.
[2] https://x.com/GillVerd/status/1764901418664882327.
[3] https://x.com/KevinAFischer/status/1764892031233765421.
[4]https://x.com/hahahahohohe/status/1765088860592394250.

<<: 肖像ラベルシステムの構築と運用実践

>>: Stable Diffusion 3 技術レポート公開: Sora と同じアーキテクチャの詳細を公開