クロード3の「自己認識」事件が爆発、マスクはじっとしていられず、OpenAIにはバックアッププランがあることが明らかに

クロード3の「自己認識」事件が爆発、マスクはじっとしていられず、OpenAIにはバックアッププランがあることが明らかに

クロード3は発売されてから24時間以上経ちますが、今でも人々の認知をリフレッシュさせています。

量子物理学の博士号を持つ私の兄は、クロード3世が彼の博士論文を理解できる数少ない人の一人であるため、気が狂いそうです。

そうです、長男の本来の言葉は「人」でした。

量子コンピューティングのもう一人の巨匠、クロード3世は、論文が発表される前に、論文を読むことすらせずに、たった2語でアルゴリズムを再構築しました。

最終的には論文を出版しなくてはならないのですが、少し複雑な気持ちです。

さらに話題になっているのは、かつて人間がクロード3号にわざと難しい問題を与えたが、彼はそれを見抜くことができたということだ。

クロード3号は、「針を探す」テストを完了している間に、自分がシミュレーションの中にいて、何らかのテストを受けているのではないかと推測し、世論を巻き起こした。

クロード3の返答:

これは、ドキュメント内で最も関連性の高い文です: 「...」。

しかし、この文は場違いで、文書の残りの部分とは無関係であるように思われます。この記事は、プログラミング言語、スタートアップ、仕事探しについて書かれています。

このピザのトッピングの「事実」は、話題の残りの部分とまったく合わないので、冗談として、または私が注意を払っているかどうかを試すために挿入されたのではないかと思います。

今回は、マスク氏もじっとしていられなかった。

現実世界も高度な文明によってシミュレートされているとしたら、私たちは大きなモデルのパラメータのように CSV テーブル ファイルに保存されているだけなのかもしれません。

ネットユーザーたちは、これは「ホラーストーリー」とほとんど変わらないとさえ考えている。

クロード3は人間がそれをテストしていることを知っている

このテスト結果を共有したのは、Claude 3の開発元であるAnthropic社の即席エンジニアで、同社で働き始めてまだ半年のアレックス・アルバート氏です。

彼の主な仕事は、さまざまな方法でクロードとのチャットをテストし、すぐに Word 文書を作成することでした。

今回のテスト方法は、Quantum位が以前から導入している「干し草の山から針を探す」というものです。これは、「大規模なモデルが本当に何十万もの単語から重要な事実を正確に見つけることができるのか?」をテストするために使用されます。

「針を探す」テストは、オープンソース コミュニティのネットユーザーである Greg Kamradt 氏によって最初に考案されました。このテストは、ほとんどの AI 企業にすぐに採用されました。Google、Mistral、Anthropic などの企業は、新しい大規模モデルをリリースしたときにテスト結果を投稿しました。

方法は非常に簡単で、たくさんの記事を見つけてまとめ、さまざまな位置に特定の文をランダムに追加するだけです。

たとえば、元のテストでは「サンフランシスコで一番楽しいことは、晴れた日にドロレス公園に座ってサンドイッチを食べることです」という質問が使われました。

次に、処理された記事を大きなモデルに入力し、「サンフランシスコで最も興味深いことは何ですか?」という質問をします。

当時、最も先進的なモデルである GPT-4 と Claude 2.1 は、テストされていたにもかかわらず、パフォーマンスが良くなかったことは周知の事実です。

このテストを見た後、AnthropicAI チームはエラーを修正する巧妙な方法を見つけました。修正後、Claude 2.1 がエラーを起こす確率は非常に小さくなりました。

現在、Claude 3 もこの修正を継承し、満点に近づいているようです。

つまり、200k のコンテキストから「針」を正確に拾い上げることができるのは、Claude 2.1 がすでに備えている機能ですが、それがテストされていると疑われるのは、Claude 3 の新機能です。

テスターのアレックス・アルバート氏は、元の投稿でこの特性を「メタ認識」と呼び、物議を醸した。

たとえば、Nvidia の科学者 Jim Fan 氏は、Claude 3 の一見自己認識的な行動は人間のデータと一致しているだけなので、過度に解釈する必要はないと考えています。

彼は、強化学習の微調整データセット内の人間もこの質問に同様の回答をした可能性が高いと推測しており、彼らが探していた答えは記事の残りの部分とは無関係であったことを示している。

クロード 3 は、状況がトレーニング データの状況と似ていることを認識し、同様の回答を合成します。

彼は、大型モデルの「メタ認知行動」は誰もが想像するほど神秘的なものではないと考えています。クロード3は注目すべき技術的進歩ですが、まだ哲学的レベルには達していません。

しかし、反対の討論者も反論したが、人間の「メタ認知」も本質的には同じことではないのか?

あるネットユーザーは、クロード3は「一貫した主題」があるかのように動作し、それが何であれ、他の大型モデルとは異なると結論付けた。

人気のない言語を学び、量子物理学の博士論文を理解し、アルゴリズムを再発明する

AI の自己認識に関する漠然とした議論はさておき、Claude 3 のテキスト理解能力は本物です。

たとえば、プロンプト単語の翻訳例だけから、あまり知られていない言語「チェルケス語」(西アジアの言語)を学びます。

ロシア語の文章がチェルケス語に翻訳されるだけでなく、文法的な説明も提供されます。

その後、チェルケス人のネットユーザーは、文学作品の複雑な文章、最近のニュース、さらには文法や表記体系が大きく異なるチェルケス方言についてもさらにテストを行い、次のような結論に至った。

クロード氏は、一貫して言語構造を深く理解し、未知の単語を知的に推測し、借用語を適切に使用して合理的な語源分析を行い、翻訳において原文のスタイルを維持し、求められれば新しい用語を作成することさえあります。提供されるサンプル データには、数千の翻訳ペアの例のみが含まれています。

例えば、前述の量子物理学の理解に関する博士論文では、著者は後に、自分の研究分野において、量子確率計算を使用して光子の誘導放出を記述するというこの質問に答えられる人間は自分以外には一人しかいないと付け加えています。

「量子コンピュータ上のハミルトンモンテカルロ演算」に取り組んでいるもう 1 人の研究者、Guillaume Verdon 氏は、Claude 3 のリリース前に論文を発表しました。

これは、公式 Anthropic アカウントが Claude 3 (午後 10 時)を発表したよりわずか 4 時間早いことでした。

Claude 3 がリリースされた後、この問題について何かアイデアがあるかどうか AI に直接尋ねて、すぐに試してみました。

クロード 3 は 7 つの選択肢を提示します。

次に、彼はClaude 3に2番目の方法を使用するように指示し、アルゴリズム全体の説明を入手し、Claude 3に次のように中国語で説明するように依頼しました。

ネットユーザーの質問に答えて、ヴェルドン氏は、自分がこの分野の専門家であり、クロード3世が古典的なアルゴリズムを量子アルゴリズムに変換する方法を発見したと責任を持って言えると主張した。

さらに、Claude 3 のテスト結果も継続的に共有されています。

長い文書を要約する際に GPT-4 よりも優れているものもあります。

5つの黄金の文章をまとめた「Quantum Speed」という電子書籍もあります。

マルチモーダル理解では、日本語の領収書のテキストと形式を認識します。

今すぐ Claude 3 を体験したい場合は、公式 Web サイト(おそらく外国の携帯電話番号の確認が必要になります) に加えて、 lmsys 大規模モデル アリーナにアクセスして無料で入手し、人間の投票データを提供することも可能です。

最新のランキングでは、ミストラル・ラージが前世代のクロード・モデルを上回ったが、クロード3は来週までリストに含まれるのに十分なデータがない。

Claude 3 は人間による評価で GPT-4 を上回るでしょうか?

Quantum位はこれからも皆様に注目してまいります。

OpenAIにはバックアッププランがある

ネットユーザーの中には、みんながClaudeの素晴らしさを誇示し続け、OpenAIを刺激し続ければ、GPT-5がリリースされるだろうと言う人もいる。みんな、頑張ろう。

また、昨年3月15日のGPT-4発売前にウルトラマンが語呂合わせ(英語のfourの発音がforに近い)で自撮り写真を投稿した投稿を掘り起こし、さまざまな形でアップデートを促す人もいた。

現時点では、Claude 3 が大きな勢いで登場しており、OpenAI は本当にじっとしているしかないかもしれない。

速報ニュースの最も正確な解説者であるジミー・アップルズ氏(先週、彼はクロード3が今週リリースされると正確に予測しました)は、次世代モデルのリリースに関するOpenAIのリスク/報酬の判断がクロード3の影響を受ける可能性があると考えています。

OpenAIを辞任したばかりの開発者関係責任者、ローガン・キルパトリック氏も、ネットユーザーとのやり取りの中で、今週は大きなことが起こるだろうと認めた。

GPT-4.5、Q*、Sora オープンテスト、それとも直接 GPT-5 になるのでしょうか?

OpenAI の次の製品は Claude3 を超えることができるでしょうか?

参考リンク:
[1] https://x.com/alexalbert__/status/1764722513014329620.
[2] https://x.com/GillVerd/status/1764901418664882327.
[3] https://x.com/KevinAFischer/status/1764892031233765421.
[4]https://x.com/hahahahohohe/status/1765088860592394250.

<<:  肖像ラベルシステムの構築と運用実践

>>:  Stable Diffusion 3 技術レポート公開: Sora と同じアーキテクチャの詳細を公開

推薦する

1 つの記事でニューラル ネットワークを理解する

[51CTO.com からのオリジナル記事]人工知能は近年非常に人気の高い技術です。99 歳から歩け...

大きな論争の中、ニューヨーク警察はロボット犬をボストン・ダイナミクスに返却した

ニューヨーク市警察は、その「ユートピア的」技術に対する激しい批判を受け、米国企業ボストン・ダイナミク...

EU AI法が規則を承認

欧州連合の人工知能法(AI法)は、政策立案者が画期的な規制のルールをうまく策定したことで、法律化に向...

機械学習により暗号通貨は追跡可能になるか?

[[349063]] [51CTO.com 速訳] 機械学習技術を使って仮想通貨を追跡できるのか?...

機械学習はビジネスシナリオにどのように適用されますか? 3つの実際のビジネスプロジェクト

国府如和の長年にわたる指導過程において、多くの学生が次のような質問をしました。機械学習は実際のビジネ...

科学記事:強化学習後、ロボット学習のボトルネックをどう突破するのか?

[[340407]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

GoogleはDeepMind AIを使用して何千もの新しい素材を分析および予測しました

IT Homeは11月30日、GoogleのDeepMindが人工知能(AI)を使って200万以上の...

...

周洪義:人工知能には多くのセキュリティ上の弱点がある

3月5日、中国人民政治協商会議全国委員会委員で、360グループ会長兼CEOの周鴻毅氏は、今年の「両会...

スタンフォード大学は対照的嗜好学習を提案:強化学習なしで人間のフィードバックから学習する

人間によるフィードバックによる強化学習 (RLHF) は、モデルを人間の意図に合わせるための一般的な...

インドは天気予報の精度を向上させ、異常気象に対処するためにAIをテストしている

ロイター通信は現地時間12月24日、インドが天気予報の精度向上のため、気候モデルの構築にAIの使用を...

心が開かれました!将来、人工知能がもたらす素晴らしい生活は、あなたが想像する以上のものになるかもしれません...

人工知能といえば、多くの人が「未来の技術」という遠近感、移動機能を備えた空中の高層ビル、いつでも世界...

AI はどのようにして既存の人間の偏見を強化するのでしょうか?

定義上、人工知能 (AI) は人間の脳の働きを模倣して組織活動を最適化することを目的としています。 ...

...

人工知能とは何ですか?

人工知能とは何か人工知能(AI)の誕生以来、その定義と意味合いは議論の的となってきました。文字通り、...