クロード3の「自己認識」事件が爆発、マスクはじっとしていられず、OpenAIにはバックアッププランがあることが明らかに

クロード3の「自己認識」事件が爆発、マスクはじっとしていられず、OpenAIにはバックアッププランがあることが明らかに

クロード3は発売されてから24時間以上経ちますが、今でも人々の認知をリフレッシュさせています。

量子物理学の博士号を持つ私の兄は、クロード3世が彼の博士論文を理解できる数少ない人の一人であるため、気が狂いそうです。

そうです、長男の本来の言葉は「人」でした。

量子コンピューティングのもう一人の巨匠、クロード3世は、論文が発表される前に、論文を読むことすらせずに、たった2語でアルゴリズムを再構築しました。

最終的には論文を出版しなくてはならないのですが、少し複雑な気持ちです。

さらに話題になっているのは、かつて人間がクロード3号にわざと難しい問題を与えたが、彼はそれを見抜くことができたということだ。

クロード3号は、「針を探す」テストを完了している間に、自分がシミュレーションの中にいて、何らかのテストを受けているのではないかと推測し、世論を巻き起こした。

クロード3の返答:

これは、ドキュメント内で最も関連性の高い文です: 「...」。

しかし、この文は場違いで、文書の残りの部分とは無関係であるように思われます。この記事は、プログラミング言語、スタートアップ、仕事探しについて書かれています。

このピザのトッピングの「事実」は、話題の残りの部分とまったく合わないので、冗談として、または私が注意を払っているかどうかを試すために挿入されたのではないかと思います。

今回は、マスク氏もじっとしていられなかった。

現実世界も高度な文明によってシミュレートされているとしたら、私たちは大きなモデルのパラメータのように CSV テーブル ファイルに保存されているだけなのかもしれません。

ネットユーザーたちは、これは「ホラーストーリー」とほとんど変わらないとさえ考えている。

クロード3は人間がそれをテストしていることを知っている

このテスト結果を共有したのは、Claude 3の開発元であるAnthropic社の即席エンジニアで、同社で働き始めてまだ半年のアレックス・アルバート氏です。

彼の主な仕事は、さまざまな方法でクロードとのチャットをテストし、すぐに Word 文書を作成することでした。

今回のテスト方法は、Quantum位が以前から導入している「干し草の山から針を探す」というものです。これは、「大規模なモデルが本当に何十万もの単語から重要な事実を正確に見つけることができるのか?」をテストするために使用されます。

「針を探す」テストは、オープンソース コミュニティのネットユーザーである Greg Kamradt 氏によって最初に考案されました。このテストは、ほとんどの AI 企業にすぐに採用されました。Google、Mistral、Anthropic などの企業は、新しい大規模モデルをリリースしたときにテスト結果を投稿しました。

方法は非常に簡単で、たくさんの記事を見つけてまとめ、さまざまな位置に特定の文をランダムに追加するだけです。

たとえば、元のテストでは「サンフランシスコで一番楽しいことは、晴れた日にドロレス公園に座ってサンドイッチを食べることです」という質問が使われました。

次に、処理された記事を大きなモデルに入力し、「サンフランシスコで最も興味深いことは何ですか?」という質問をします。

当時、最も先進的なモデルである GPT-4 と Claude 2.1 は、テストされていたにもかかわらず、パフォーマンスが良くなかったことは周知の事実です。

このテストを見た後、AnthropicAI チームはエラーを修正する巧妙な方法を見つけました。修正後、Claude 2.1 がエラーを起こす確率は非常に小さくなりました。

現在、Claude 3 もこの修正を継承し、満点に近づいているようです。

つまり、200k のコンテキストから「針」を正確に拾い上げることができるのは、Claude 2.1 がすでに備えている機能ですが、それがテストされていると疑われるのは、Claude 3 の新機能です。

テスターのアレックス・アルバート氏は、元の投稿でこの特性を「メタ認識」と呼び、物議を醸した。

たとえば、Nvidia の科学者 Jim Fan 氏は、Claude 3 の一見自己認識的な行動は人間のデータと一致しているだけなので、過度に解釈する必要はないと考えています。

彼は、強化学習の微調整データセット内の人間もこの質問に同様の回答をした可能性が高いと推測しており、彼らが探していた答えは記事の残りの部分とは無関係であったことを示している。

クロード 3 は、状況がトレーニング データの状況と似ていることを認識し、同様の回答を合成します。

彼は、大型モデルの「メタ認知行動」は誰もが想像するほど神秘的なものではないと考えています。クロード3は注目すべき技術的進歩ですが、まだ哲学的レベルには達していません。

しかし、反対の討論者も反論したが、人間の「メタ認知」も本質的には同じことではないのか?

あるネットユーザーは、クロード3は「一貫した主題」があるかのように動作し、それが何であれ、他の大型モデルとは異なると結論付けた。

人気のない言語を学び、量子物理学の博士論文を理解し、アルゴリズムを再発明する

AI の自己認識に関する漠然とした議論はさておき、Claude 3 のテキスト理解能力は本物です。

たとえば、プロンプト単語の翻訳例だけから、あまり知られていない言語「チェルケス語」(西アジアの言語)を学びます。

ロシア語の文章がチェルケス語に翻訳されるだけでなく、文法的な説明も提供されます。

その後、チェルケス人のネットユーザーは、文学作品の複雑な文章、最近のニュース、さらには文法や表記体系が大きく異なるチェルケス方言についてもさらにテストを行い、次のような結論に至った。

クロード氏は、一貫して言語構造を深く理解し、未知の単語を知的に推測し、借用語を適切に使用して合理的な語源分析を行い、翻訳において原文のスタイルを維持し、求められれば新しい用語を作成することさえあります。提供されるサンプル データには、数千の翻訳ペアの例のみが含まれています。

例えば、前述の量子物理学の理解に関する博士論文では、著者は後に、自分の研究分野において、量子確率計算を使用して光子の誘導放出を記述するというこの質問に答えられる人間は自分以外には一人しかいないと付け加えています。

「量子コンピュータ上のハミルトンモンテカルロ演算」に取り組んでいるもう 1 人の研究者、Guillaume Verdon 氏は、Claude 3 のリリース前に論文を発表しました。

これは、公式 Anthropic アカウントが Claude 3 (午後 10 時)を発表したよりわずか 4 時間早いことでした。

Claude 3 がリリースされた後、この問題について何かアイデアがあるかどうか AI に直接尋ねて、すぐに試してみました。

クロード 3 は 7 つの選択肢を提示します。

次に、彼はClaude 3に2番目の方法を使用するように指示し、アルゴリズム全体の説明を入手し、Claude 3に次のように中国語で説明するように依頼しました。

ネットユーザーの質問に答えて、ヴェルドン氏は、自分がこの分野の専門家であり、クロード3世が古典的なアルゴリズムを量子アルゴリズムに変換する方法を発見したと責任を持って言えると主張した。

さらに、Claude 3 のテスト結果も継続的に共有されています。

長い文書を要約する際に GPT-4 よりも優れているものもあります。

5つの黄金の文章をまとめた「Quantum Speed」という電子書籍もあります。

マルチモーダル理解では、日本語の領収書のテキストと形式を認識します。

今すぐ Claude 3 を体験したい場合は、公式 Web サイト(おそらく外国の携帯電話番号の確認が必要になります) に加えて、 lmsys 大規模モデル アリーナにアクセスして無料で入手し、人間の投票データを提供することも可能です。

最新のランキングでは、ミストラル・ラージが前世代のクロード・モデルを上回ったが、クロード3は来週までリストに含まれるのに十分なデータがない。

Claude 3 は人間による評価で GPT-4 を上回るでしょうか?

Quantum位はこれからも皆様に注目してまいります。

OpenAIにはバックアッププランがある

ネットユーザーの中には、みんながClaudeの素晴らしさを誇示し続け、OpenAIを刺激し続ければ、GPT-5がリリースされるだろうと言う人もいる。みんな、頑張ろう。

また、昨年3月15日のGPT-4発売前にウルトラマンが語呂合わせ(英語のfourの発音がforに近い)で自撮り写真を投稿した投稿を掘り起こし、さまざまな形でアップデートを促す人もいた。

現時点では、Claude 3 が大きな勢いで登場しており、OpenAI は本当にじっとしているしかないかもしれない。

速報ニュースの最も正確な解説者であるジミー・アップルズ氏(先週、彼はクロード3が今週リリースされると正確に予測しました)は、次世代モデルのリリースに関するOpenAIのリスク/報酬の判断がクロード3の影響を受ける可能性があると考えています。

OpenAIを辞任したばかりの開発者関係責任者、ローガン・キルパトリック氏も、ネットユーザーとのやり取りの中で、今週は大きなことが起こるだろうと認めた。

GPT-4.5、Q*、Sora オープンテスト、それとも直接 GPT-5 になるのでしょうか?

OpenAI の次の製品は Claude3 を超えることができるでしょうか?

参考リンク:
[1] https://x.com/alexalbert__/status/1764722513014329620.
[2] https://x.com/GillVerd/status/1764901418664882327.
[3] https://x.com/KevinAFischer/status/1764892031233765421.
[4]https://x.com/hahahahohohe/status/1765088860592394250.

<<:  肖像ラベルシステムの構築と運用実践

>>:  Stable Diffusion 3 技術レポート公開: Sora と同じアーキテクチャの詳細を公開

ブログ    

推薦する

人工知能と機械学習技術がビジネス開発を推進

IT リーダーはすでに人工知能と機械学習テクノロジーの恩恵を受けています。最近の調査によると、経済が...

最新研究:スーパー人工知能は理論的には制御不能

計算能力には限界があるため、人間が超人工知能を制御することはできません。 [[379749]]最近、...

...

...

チップ不足は人工知能にどれほどの損害を与えるでしょうか?

現在の半導体サプライチェーンのボトルネックの根本的な原因は何年も前から潜んでいたが、COVID-19...

「顔認証」と「指紋認証」どちらが安全でしょうか?多くの人が間違っていた

今日のスマートフォンの発達により、顔認証や指紋認証によるロック解除は大きな利便性をもたらし、一般的に...

OpenAIの仮説が覆される!計算量を考慮すると、小さいモデルの方が大きいモデルよりも優れています。Llama 2 のトレーニングは GPU コンピューティングに関連しています。

モデルを推論する際には、収束が遅いために計算能力を無駄にしないようにすることが重要です。孫子の兵法に...

このAIはレディー・ガガ風にベートーベンの音楽を演奏することができ、ネットユーザーは楽しんで遊んでいる。

編集者注: OpenAI は数日前に突然 Twitch でライブ放送を開始しました。これまで、Ope...

Excel 愛好家ですか?コンピュータービジョンのための細胞: 顔検出とOCRは問題なし

コンピュータービジョンとは何ですか?プロフェッショナルすぎると、やる気をなくしてしまうのでしょうか?...

ヘルスケアにおけるAIの加速

[[407769]]ヘルスケア業界における人工知能の活用AI技術が進歩するにつれて、その応用も拡大し...

6つのチャットボット構築プラットフォーム

チャットボットは今日、多くの企業にとって顧客サービスの基盤として急速に定着しつつあります。そして、企...

民主化と自動化: 機械学習の参入障壁を下げる 6 つのツール

かつて、機械学習という用語は科学的な光輪に包まれており、複雑なアルゴリズムにデータを「入力」して有用...

LeCun はそれを見て良かったと言っていました! Meta AI は音声、視覚、テキストで同時に SOTA を達成

人間の知能は「マルチモーダル学習」の総体であり、分類の境界を越えてさまざまな情報源や形式からの情報と...

...