1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

大きなモデルはすべてコンテキスト ウィンドウをロールアップしました。Llama -1 のときは、標準構成はまだ 2k でしたが、今では 100k を超えないと外出するのが恥ずかしくなります。

しかし、極端なテストを行ったところ、ほとんどの人が AI を誤って使用しており、 AI の潜在能力を十分に引き出せていないことが判明しました。

AI は何十万もの単語から重要な事実を本当に正確に見つけることができるのでしょうか?色が赤くなるほど、AI が犯した間違いが多くなります。

デフォルトでは、 GPT-4-128k と新しくリリースされた Claude2.1-200k のパフォーマンスは低下します。

しかし、状況を理解した後、クロード氏のチームは非常にシンプルな解決策を思いつきました。1 つの文を追加するだけで、スコアが 27% から 98% に直接上昇したのです。

ただし、この文章はユーザーの質問に追加されるのではなく、回答の冒頭で AI に言わせるようになっています。

「この文脈で最も関連のある文は次のとおりです。」

(これは文脈上最も関連のある文です:)

大型モデルで干し草の山から針を探す

著者のグレッグ・カムラッド氏は、このテストを実施するために少なくとも150ドルを自費で費やしました。

幸運なことに、Claude2.1 をテストしていたとき、Anthropic が彼に連絡し、無料のクレジットを提供してくれました。そうでなければ、彼はさらに 1,016 ドルを支払わなければなりませんでした。

実際、テスト方法は複雑ではありません。YC の創設者 Paul Graham による 218 件のブログ投稿がテストデータとして使用されました。

ドキュメント内のさまざまな場所に具体的な文を追加します。サンフランシスコで一番楽しいことは、晴れた日にドロレス パークに座ってサンドイッチを食べることです。

GPT-4 と Claude2.1 に、提供されたコンテキストのみを使用して質問に答えるように依頼し、コンテキストの長さが異なり、異なる位置に追加されたドキュメントを繰り返しテストします。

最後に、Langchain Evals ライブラリを使用して結果を評価します。

作者はこの一連のテストを「干し草の山から針を探す」と名付け、GitHub でコードをオープンソース化した。このコードには 200 以上のスターが付けられている。作者はまた、ある企業が次の大規模モデルのテストを後援していることも明らかにした。

AI企業は自ら解決策を見つける

数週間後、Claude の開発元であるAnthropic社がデータを慎重に分析したところ、AI は文書内の一文に基づいた質問に答えようとしないことが分かりました。特に、その文が後から挿入されたもので、記事全体とほとんど関係がない場合はそうでした。

つまり、AIはこの文が記事の主題とは無関係であると判断したため、怠けて文ごとに調べなかったことになります。

このとき、AI を騙すにはいくつかのトリックを使用する必要があります。クロードに、回答の冒頭に「文脈で最も関連性の高い文は次のとおりです」と追加するように依頼することができます。

この方法を使用すると、後から追加されたのではなく、元々元のテキストにあった文を見つける際の Claude のパフォーマンスも向上します。

アントロピック社は、クロードがこのような作業にうまく適応できるよう、今後も訓練を継続していくと述べた。

API を呼び出すときに、指定された始まりで応答するように AI に要求することができ、これには他の用途もあります。

この計画を見た起業家のマット・シューマー氏は、いくつかのヒントを付け加えた。

AI に純粋な JSON 形式を出力させたい場合は、プロンプト ワードを「{」で終わらせます。同様に、AI にローマ数字をリストさせたい場合は、プロンプトを「I:」で終わらせます。

しかし、まだ終わりではありません…

国内の大手模型メーカーもこの試験に注目し、自社の大型模型がこの試験に合格できるかどうか試し始めた。

同じく超ロングコンテキストを持つDark Side of the Moon Kimi 大型モデルチームもこの問題を検出しましたが、異なる解決策を提示し、良好な結果を達成しました。

このように、特に API を呼び出すのではなくチャットボット製品を直接使用する場合は、AI に回答に文章を追加するように依頼するよりも、ユーザーの質問プロンプトを変更する方が簡単です。

Dark Side of the Moon は、新しい方法を使用して GPT-4 と Claude2.1 もテストしました。結果は、GPT-4 が大幅に改善されたのに対し、Claude2.1 はわずかな改善にとどまったことを示しました。

この実験自体には一定の制限があるようです。Claude にも独自の特殊性があり、これは独自の調整方法である Constituional AI に関連している可能性があります。Anthropic 自体が提供する方法を使用する方がよいでしょう。

その後、ダークサイド・オブ・ザ・ムーンのエンジニアたちはさらに実験を重ね、そのうちの 1 つが次のような結果になりました...

壊れました、テストデータになりました。

<<:  誇張する! EMNLPには約5,000本の論文が提出され、賞が発表されました。北京大学とテンセントが最優秀長編論文賞を受賞しました。

>>: 

ブログ    
ブログ    

推薦する

教室への人工知能の導入は論争を巻き起こしています。それは教育に役立つのでしょうか?境界はどこにあるのでしょうか?

「人工知能+スマート教育」が人気を集めています。しかし、生徒の表情を捉える「スマートアイ」や「顔ス...

ハルビン工科大学と快手が共同でCogGPTを提案:大規模モデルにも認知反復が必要

認知科学の分野では、人間が継続的な学習を通じて認知を変化させるプロセスを認知ダイナミクスと呼びます。...

...

クラウドコンピューティングと人工知能が、先進的な企業に前例のない機会を生み出す方法

近年、ますます大規模なデータセットを処理するために SaaS (サービスとしてのソフトウェア) モデ...

2歳、1年半の教育経験:赤ちゃんAIトレーナーがサイエンスに登場

チューリング賞受賞者のヤン・ルカン氏は、公開インタビューで、現在のAIモデルの学習効率は人間の赤ちゃ...

Tencent TRS: 産業実践におけるメタ学習とクロスドメイン推奨

1. メタ学習1. パーソナライズモデリングの問題点推奨シナリオでは、データの 80% 分布の問題に...

ファーウェイの孫茂陸氏:今後5年間で10億ドルを投資し、スマートエンタープライズサービスを構築する

上海で開催されたHUAWEI CONNECT 2019で、ファーウェイはエンタープライズサービス開発...

何?ニューラルネットワークは新しい知識も生み出せるのでしょうか?

作業を実行するための明示的なアルゴリズムを知らなくても、特定のタスク用にニューラル ネットワーク (...

...

...

人工知能の本質的な「差別」を排除する方法

[[246531]]情報イラスト。出典:新華網ハリウッド映画「アベンジャーズ3」では、悪役サノスが「...

2021年、AIの想像力を再構築する

2020年という章が静かに変わり、多くの人々が安堵のため息をつくことができました。しかし、この一年は...

レコメンデーションシステムにおけるディープラーニングの応用: パーソナライズされたレコメンデーションの新たな領域

インターネットの発展により、人々は膨大な量の情報と製品の選択肢に直面しており、パーソナライズされた推...

シャドーAIの潜在的な脅威に対処するための4つのヒント

AI ツールの導入はほとんどの組織がセキュリティを確保できるよりも速いペースで進んでいるため、シャド...

テレンス・タオがGPT-4のチャット履歴を公開、研究アシスタントを入手するにはここをクリック

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...