単語の順序はGPT-4の読解力には影響しないが、他の大規模モデルでは影響しない。

単語の順序はGPT-4の読解力には影響しないが、他の大規模モデルでは影響しない。

研究によると、漢字の文字の順序は必ずしも読み方に影響しない(英語の場合は各単語の文字の順序が影響する)ことが分かっています。

現在、日本の東京大学での実験により、この「定理」は実際には GPT-4 にも当てはまることが判明しました。

たとえば、この「幽霊のような」段落を見ると、段落内のすべての単語のほぼすべての文字がごちゃごちゃになっていることがわかります

2023年にオーストラリアのメルボルンで開催されるワールドカップのマグロフェスティバルで、オーストラリアの選手が優勝し、その後の活躍が期待される。

しかし、GPT-4 は元の文(赤いボックス)を完璧に復元しました。

これは、ジョン・ラームという男が2023年のマスターズ(ゴルフ)で優勝するという話であることが判明しました。

さらに、この文字化けしたコードについて GPT-4 に直接質問すると、読み取りにまったく影響を与えることなく、まずコードを理解し、正しい答えを返すことができます。

研究者たちはこれに驚きました

文字化けした単語がモデルのトークン化プロセスに深刻な干渉を引き起こすのは当然ですが、GPT-4 は人間のように影響を受けないため、少し直感に反します。

この実験では他の大規模モデルもテストされましたが、それらはすべてチャレンジに失敗し、 GPT-4 のみが成功したことは特筆に値します。

具体的にはどう言えばいいでしょうか?

単語の順序はGPT-4の読み取りには影響しない

大規模モデルがテキストの乱れによる干渉に抵抗する能力をテストするために、著者らは特別なテスト ベンチマークである Scrambled Bench を構築しました。

2 種類のタスクが含まれます。

1 つ目は、スクランブル文の復元(ScrRec)で、大規模なモデルが順序どおりに並んでいない文を復元する能力をテストします。

その定量的指標には回復率(RR)と呼ばれるものが含まれており、これは単純に大規模モデルによって回復された単語の割合として理解できます。

2 つ目は、スクランブル質問応答(ScrQA)です。これは、コンテキスト マテリアル内の単語がスクランブルされている場合に、大規模モデルが質問を正しく理解して回答する能力を測定します。

各モデルの能力が異なるため、このタスクを評価するために精度を直接使用することは困難です。そのため、著者は相対的パフォーマンスゲイン(RPG)と呼ばれる定量的な指標を使用します。

特定のテスト材料は、次の 3 つのデータベースから選択されます。

1 つは RealtimeQA で、これは現在の LLM ではおそらく知らない最新のニュースを毎週公開します。

2つ目は、包括的な対話ベースの多肢選択式読書データセットであるDREAM (Sun et al.、2019)です。

最後に、解決するために複数ステップの推論を必要とする数学の問題のデータセットである AQuARAT があります。

著者らは、データセットごとに質問を選択し、次のようなさまざまなレベルとタイプの摂動を加えました。
1. ランダムスクランブリング(RS) 、つまり、各文に対して、一定の割合(20%、50%、100%)の単語をランダムに選択し、これらの単語内のすべての文字をシャッフルします(数字は変更されません)

2. 各単語の最初の文字はそのままにして、残りをランダムに並べます(KF)

3. 各単語の最初と最後の文字は変更せず、残りをランダムにシャッフルします(KFL)

テストには多くのモデルが関与しており、記事の本文では次のように報告されています。

text-davinci-003、GPT-3.5-turbo、GPT-4、Falcon-180b、およびLlama-2-70b。

まず、さまざまな種類の干渉の影響を見てみましょう。

次の図に示すように:

KFL 設定(つまり、最初と最後の文字は変更されない)では、スクランブルされた文の回復タスクでも、スクランブルされた質問応答タスクでも、モデル間のパフォーマンスのギャップは大きくありません。

しかし、干渉の難易度が上がるにつれて(KF と RS になってから) 、GPT-4 を除いてモデルのパフォーマンスは大幅に低下しました。

具体的には、スクランブル文回復(ScrRec)タスクでは、GPT-4 の回復率が常に 95% を超えており、スクランブル質問と回答(ScrQA)タスクでは、GPT-4 の相対精度が常に 85% ~ 90% 程度に維持されています。

それに比べて、他のモデルでは 20% 未満まで低下しています。

2 つ目は、異なるスクランブル レートの影響です。

下の図に示すように、乱れた文の回復(ScrRec)タスクでは、文中の乱れた単語の数が増えて100%になるまで、GPT-3.5-turboとGPT-4のパフォーマンスだけが大きく変化しないことがわかります。もちろん、GPT-4は依然としてGPT-3.5よりはるかに優れています。

スクランブル質問応答(ScrQA)タスクでは、文中のスクランブルされた単語の数が増えるにつれて、すべてのモデルのパフォーマンスが大幅に低下し、ギャップがどんどん大きくなります。

しかしその中でも、GPT-4 は 87.8% のスコアで依然として圧倒的なトップの地位を維持しており、低下も最もわずかです。

簡単にまとめると次のようになります。

ほとんどのモデルは、一定の割合の干渉テキストを処理できますが、それが極端なレベルに達すると(たとえば、すべての単語がシャッフルされる) 、GPT-4 のみが最高のパフォーマンスを発揮します。GPT-4 だけが、完全に混沌とした語順の影響をほとんど受けません。

GPT-4は単語の分割にも優れている

記事の最後で著者はこう述べています。

単語内の文字の順序をシャッフルするだけでなく、文字の挿入、文字の置き換えなどの効果を調べることもできます。

唯一の問題は、GPT-4 がクローズドソースであるため、GPT-4 が語順の影響を受けない理由を誰もが調査することが難しいことです。

一部のネットユーザーは、この記事で示した状況に加えて、GPT-4 が次の英語の段落を完全に接続することも非常に得意であることを発見しました。

フォリオンベルトの視線の下、海が広がる
静寂とエッジが出会う夕暮れの隠れた場所
EOFWisdomは多くの人に忘れられ、教会の信者たちに切望されている
鍵を握る力

適切に分離:

オリオン座のベルトの視線の下、静かの海が夕暮れの端と交わるところには、多くの人に忘れられ、知る人ぞ知る、隠された知恵の宝庫があります。そこには計り知れない力への鍵が握られています。

理論的には、このような単語分割操作は非常に面倒な作業であり、通常は動的プログラミングなどの操作が必要になります。

GPT-4 が実証した機能は、再びネットユーザーを驚かせた。

彼はまた、このコンテンツを公式の OpenA トークナイザー ツールに入力し、GPT-4 が認識するトークンが実際には次のようになることを発見しました。

今、彼は、こことトラの海を見つめている。

「UNDER」、「SEA」、「OF」を除いて、残りのトークンのほとんどすべてが「非論理的」であるように思われ、さらに混乱を招きます。

これについてどう思いますか?

<<: 

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

キャッシュ、キャッシュ アルゴリズム、キャッシュ フレームワークの概要

導入私たちは皆、キャッシュについて聞いたことがあります。キャッシュとは何かと尋ねると、完璧な答えが返...

人工知能教育とは何ですか?将来の教育の顕著な特徴は何でしょうか?

グローバル情報化教育の時代において、教育モデル、教育内容、学習方法は大きな変化を遂げており、人工知能...

ラスベガスの「チャイナナイト」:中国の人工知能が外国人に人生への疑問を抱かせ始める!

CES は世界最大かつ最も影響力のある消費者向け電子機器展示会です。米国時間1月8日、ラスベガスで...

人工知能 (AI) を活用して仕事の未来を築くにはどうすればよいでしょうか?

仕事は私たちの生活の重要な部分です。私たちの人生の3分の1はこれに費やされています。私たちの世界には...

2024年に注目すべき主要な通信技術のトレンド

通信業界は、革新的な技術の発展と顧客の要求により急速に進化しています。 2024 年は、通信業界にと...

Amazon Translateについて

Amazon Translate は、高速、高品質、手頃な価格の言語翻訳を提供するニューラル機械翻訳...

匿名の論文が驚くべきアイデアを提案!大規模なモデルと長いテキストの能力を強化する

大規模モデルで長いテキストを処理する能力を向上させる場合、長さの外挿やコンテキスト ウィンドウの拡張...

次世代オーディオアシスタント: AI がオーディオ体験をどう形作るか

人工知能(AI)はここ数か月、ビジネス環境における流行語となっています。効率性の向上、コストの削減、...

効果はSDXLを超える!香港中文大学の博士課程学生が3億4000万枚の画像でトレーニングした超リアルな肖像画合成ツールを発表

AIが描く人物をよりリアルにするため、香港中文大学の博士課程の学生たちは3億4000万枚の画像を使っ...

人工知能とビッグデータが心理学の分野に参入

人工知能とビッグデータの時代の到来により、心理学の研究に新たな扉が開かれました。人工知能は心理学実験...

ロボットが大学入試を受けたら、何点取れるでしょうか?清華大学や北京大学に入学できるでしょうか?

周知のとおり、大学入試は我が国で最も競争率の高い試験です。世界最先端のロボットを大学入試に送り込んだ...

...

2020年AIセキュリティの「技術」と「トレンド」を理解する丨年末レビュー

[[286212]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

...