研究によると、漢字の文字の順序は必ずしも読み方に影響しない(英語の場合は各単語の文字の順序が影響する)ことが分かっています。 現在、日本の東京大学での実験により、この「定理」は実際には GPT-4 にも当てはまることが判明しました。 たとえば、この「幽霊のような」段落を見ると、段落内のすべての単語のほぼすべての文字がごちゃごちゃになっていることがわかります。
しかし、GPT-4 は元の文(赤いボックス)を完璧に復元しました。 これは、ジョン・ラームという男が2023年のマスターズ(ゴルフ)で優勝するという話であることが判明しました。 さらに、この文字化けしたコードについて GPT-4 に直接質問すると、読み取りにまったく影響を与えることなく、まずコードを理解し、正しい答えを返すことができます。 研究者たちはこれに驚きました。 文字化けした単語がモデルのトークン化プロセスに深刻な干渉を引き起こすのは当然ですが、GPT-4 は人間のように影響を受けないため、少し直感に反します。 この実験では他の大規模モデルもテストされましたが、それらはすべてチャレンジに失敗し、 GPT-4 のみが成功したことは特筆に値します。 具体的にはどう言えばいいでしょうか? 単語の順序はGPT-4の読み取りには影響しない大規模モデルがテキストの乱れによる干渉に抵抗する能力をテストするために、著者らは特別なテスト ベンチマークである Scrambled Bench を構築しました。 2 種類のタスクが含まれます。 1 つ目は、スクランブル文の復元(ScrRec)で、大規模なモデルが順序どおりに並んでいない文を復元する能力をテストします。 その定量的指標には回復率(RR)と呼ばれるものが含まれており、これは単純に大規模モデルによって回復された単語の割合として理解できます。 2 つ目は、スクランブル質問応答(ScrQA)です。これは、コンテキスト マテリアル内の単語がスクランブルされている場合に、大規模モデルが質問を正しく理解して回答する能力を測定します。 各モデルの能力が異なるため、このタスクを評価するために精度を直接使用することは困難です。そのため、著者は相対的パフォーマンスゲイン(RPG)と呼ばれる定量的な指標を使用します。 特定のテスト材料は、次の 3 つのデータベースから選択されます。 1 つは RealtimeQA で、これは現在の LLM ではおそらく知らない最新のニュースを毎週公開します。 2つ目は、包括的な対話ベースの多肢選択式読書データセットであるDREAM (Sun et al.、2019)です。 最後に、解決するために複数ステップの推論を必要とする数学の問題のデータセットである AQuARAT があります。 著者らは、データセットごとに質問を選択し、次のようなさまざまなレベルとタイプの摂動を加えました。 2. 各単語の最初の文字はそのままにして、残りをランダムに並べます(KF) 。 3. 各単語の最初と最後の文字は変更せず、残りをランダムにシャッフルします(KFL) 。 テストには多くのモデルが関与しており、記事の本文では次のように報告されています。 text-davinci-003、GPT-3.5-turbo、GPT-4、Falcon-180b、およびLlama-2-70b。 まず、さまざまな種類の干渉の影響を見てみましょう。 次の図に示すように: KFL 設定(つまり、最初と最後の文字は変更されない)では、スクランブルされた文の回復タスクでも、スクランブルされた質問応答タスクでも、モデル間のパフォーマンスのギャップは大きくありません。 しかし、干渉の難易度が上がるにつれて(KF と RS になってから) 、GPT-4 を除いてモデルのパフォーマンスは大幅に低下しました。 具体的には、スクランブル文回復(ScrRec)タスクでは、GPT-4 の回復率が常に 95% を超えており、スクランブル質問と回答(ScrQA)タスクでは、GPT-4 の相対精度が常に 85% ~ 90% 程度に維持されています。 それに比べて、他のモデルでは 20% 未満まで低下しています。 2 つ目は、異なるスクランブル レートの影響です。 下の図に示すように、乱れた文の回復(ScrRec)タスクでは、文中の乱れた単語の数が増えて100%になるまで、GPT-3.5-turboとGPT-4のパフォーマンスだけが大きく変化しないことがわかります。もちろん、GPT-4は依然としてGPT-3.5よりはるかに優れています。 スクランブル質問応答(ScrQA)タスクでは、文中のスクランブルされた単語の数が増えるにつれて、すべてのモデルのパフォーマンスが大幅に低下し、ギャップがどんどん大きくなります。 しかしその中でも、GPT-4 は 87.8% のスコアで依然として圧倒的なトップの地位を維持しており、低下も最もわずかです。 簡単にまとめると次のようになります。 ほとんどのモデルは、一定の割合の干渉テキストを処理できますが、それが極端なレベルに達すると(たとえば、すべての単語がシャッフルされる) 、GPT-4 のみが最高のパフォーマンスを発揮します。GPT-4 だけが、完全に混沌とした語順の影響をほとんど受けません。 GPT-4は単語の分割にも優れている記事の最後で著者はこう述べています。 単語内の文字の順序をシャッフルするだけでなく、文字の挿入、文字の置き換えなどの効果を調べることもできます。 唯一の問題は、GPT-4 がクローズドソースであるため、GPT-4 が語順の影響を受けない理由を誰もが調査することが難しいことです。 一部のネットユーザーは、この記事で示した状況に加えて、GPT-4 が次の英語の段落を完全に接続することも非常に得意であることを発見しました。
適切に分離:
理論的には、このような単語分割操作は非常に面倒な作業であり、通常は動的プログラミングなどの操作が必要になります。 GPT-4 が実証した機能は、再びネットユーザーを驚かせた。 彼はまた、このコンテンツを公式の OpenA トークナイザー ツールに入力し、GPT-4 が認識するトークンが実際には次のようになることを発見しました。
「UNDER」、「SEA」、「OF」を除いて、残りのトークンのほとんどすべてが「非論理的」であるように思われ、さらに混乱を招きます。 これについてどう思いますか? |
[[421134]]ロボット工学と自動化には違いがありますか? 自動化が適用されるかどうかわからない...
急速に進化するデジタル環境において、テクノロジーは私たちの生活を変え続け、私たちが可能だと思っていた...
2019年12月30日に武漢で新型肺炎が発生してから1か月以上が経ちました。マスクの値上げや品切れ...
サプライチェーン管理は最適化ゲームです。 AI の導入により、企業は最適な成果の達成にさらに注力でき...
著者についてCtrip のフロントエンド開発者である Can は、現在ミニプログラムの開発に従事して...
翻訳者注:人工知能分野の発展は学者の貢献と切り離せないものです。しかし、研究が進むにつれて、「クリッ...
ヘルスケア分野への人工知能 (AI) の導入は、今日の国際医療における最も先進的な取り組みの 1 つ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
2023年杭州雲奇大会において、アリババクラウド最高技術責任者の周景仁氏は、数千億のパラメータを持つ...
「エネルギー自己教師学習っていったい何?」と多くのRedditネットユーザーがコメントした。ちょう...
[[349418]]序文今回紹介するトライ辞書ツリーは、データ構造トピックの分岐です。トライのツリー...
誰かがGPT-3の独占に挑戦しなければなりません! GPT-3 は発売以来、最大の AI 言語モデル...