1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

大きなモデルはすべてコンテキストウィンドウをロールアップしました。Llama -1 のときは、標準構成はまだ 2k でしたが、今では 100k を超えないと外出するのが恥ずかしくなります。

しかし、極端なテストを行ったところ、ほとんどの人が AI を誤って使用しており、 AI の潜在能力を十分に引き出せていないことが判明しました。

AI は何十万もの単語から重要な事実を本当に正確に見つけることができるのでしょうか?色が赤くなるほど、AI が犯した間違いが多くなります。

デフォルトでは、 GPT-4-128k と新しくリリースされた Claude2.1-200k のパフォーマンスは低下します。

しかし、状況を理解した後、クロード氏のチームは非常にシンプルな解決策を思いつきました。1 つの文を追加するだけで、スコアが 27% から 98% に直接上昇したのです。

ただし、この文章はユーザーの質問に追加されるのではなく、回答の冒頭で AI に言わせるようになっています。

「この文脈で最も関連のある文は次のとおりです。」

(これは文脈上最も関連のある文です:)

大型モデルで干し草の山から針を探す

著者のグレッグ・カムラッド氏は、このテストを実施するために少なくとも150ドルを自費で費やしました。

幸運なことに、Claude2.1 をテストしていたとき、Anthropic が彼に連絡し、無料のクレジットを提供してくれました。そうでなければ、彼はさらに 1,016 ドルを支払わなければなりませんでした。

実際、テスト方法は複雑ではありません。YC の創設者 Paul Graham による 218 件のブログ投稿がテストデータとして使用されました。

ドキュメント内のさまざまな場所に具体的な文を追加します。サンフランシスコで一番楽しいことは、晴れた日にドロレスパークに座ってサンドイッチを食べることです。

GPT-4 と Claude2.1 に、提供されたコンテキストのみを使用して質問に答えるように依頼し、コンテキストの長さが異なり、異なる位置に追加されたドキュメントを繰り返しテストします。

最後に、Langchain Evals ライブラリを使用して結果を評価します。

作者はこの一連のテストを「干し草の山から針を探す」と名付け、GitHub でコードをオープンソース化した。このコードには 200 以上のスターが付けられている。作者はまた、ある企業が次の大規模モデルのテストを後援していることも明らかにした。

AI企業は自ら解決策を見つける

数週間後、Claude の開発元であるAnthropic社がデータを慎重に分析したところ、AI は文書内の一文に基づいた質問に答えようとしないことが分かりました。特に、その文が後から挿入されたもので、記事全体とほとんど関係がない場合はそうでした。

つまり、AIはこの文が記事の主題とは無関係であると判断したため、怠けて文ごとに調べなかったことになります。

このとき、AI を騙すにはいくつかのトリックを使用する必要があります。クロードに、回答の冒頭に「文脈で最も関連性の高い文は次のとおりです」と追加するように依頼することができます。

この方法を使用すると、後から追加されたのではなく、元々元のテキストにあった文を見つける際の Claude のパフォーマンスも向上します。

アントロピック社は、クロードがこのような作業にうまく適応できるよう、今後も訓練を継続していくと述べた。

API を呼び出すときに、指定された始まりで応答するように AI に要求することができ、これには他の用途もあります。

この計画を見た起業家のマット・シューマー氏は、いくつかのヒントを付け加えた。

AI に純粋な JSON 形式を出力させたい場合は、プロンプトワードを「{」で終わらせます。同様に、AI にローマ数字をリストさせたい場合は、プロンプトを「I:」で終わらせます。

しかし、まだ終わりではありません…

国内の大手模型メーカーもこの試験に注目し、自社の大型模型がこの試験に合格できるかどうか試し始めた。

同じく超ロングコンテキストを持つDark Side of the Moon Kimi 大型モデルチームもこの問題を検出しましたが、異なる解決策を提示し、良好な結果を達成しました。

このように、特に API を呼び出すのではなくチャットボット製品を直接使用する場合は、AI に回答に文章を追加するように依頼するよりも、ユーザーの質問プロンプトを変更する方が簡単です。

Dark Side of the Moon は、新しい方法を使用して GPT-4 と Claude2.1 もテストしました。結果は、GPT-4 が大幅に改善されたのに対し、Claude2.1 はわずかな改善にとどまったことを示しました。

この実験自体には一定の制限があるようです。Claude にも独自の特殊性があり、これは独自の調整方法である Constituional AI に関連している可能性があります。Anthropic 自体が提供する方法を使用する方がよいでしょう。

その後、ダークサイド・オブ・ザ・ムーンのエンジニアたちはさらに実験を重ね、そのうちの 1 つが次のような結果になりました...

壊れました、テストデータになりました。

<<: 誇張する！ EMNLPには約5,000本の論文が提出され、賞が発表されました。北京大学とテンセントが最優秀長編論文賞を受賞しました。

>>:

1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

大型モデルで干し草の山から針を探す

AI企業は自ら解決策を見つける

ITリーダーはAIパワーの変化する需要とトレードオフを乗り切る

3D AI が新しい遊び方を生み出します。何時間もかかる代わりに、1 枚の写真からわずか 45 秒で 3D モデルを生成できます。

AIは旅行業界の困難を軽減できるか？

人工知能は気候変動に対する新時代の解決策である

ツイッターがマスク氏の買収を阻止：15％以上の株式を保有する者は割引価格で発行される

ベストプラクティスを実際のデザインパターンに抽象化することはできますか?機械学習

成功する機械学習チームを構築するための 4 つのステップ

人工知能はあらゆる点で人間よりも優れているのに、なぜ人間の言っていることを理解できないのでしょうか?

推薦する

教室への人工知能の導入は論争を巻き起こしています。それは教育に役立つのでしょうか?境界はどこにあるのでしょうか？

ハルビン工科大学と快手が共同でCogGPTを提案：大規模モデルにも認知反復が必要

クラウドコンピューティングと人工知能が、先進的な企業に前例のない機会を生み出す方法

2歳、1年半の教育経験：赤ちゃんAIトレーナーがサイエンスに登場

Tencent TRS: 産業実践におけるメタ学習とクロスドメイン推奨

ファーウェイの孫茂陸氏：今後5年間で10億ドルを投資し、スマートエンタープライズサービスを構築する

何？ニューラルネットワークは新しい知識も生み出せるのでしょうか?

人工知能の本質的な「差別」を排除する方法

2021年、AIの想像力を再構築する

レコメンデーションシステムにおけるディープラーニングの応用: パーソナライズされたレコメンデーションの新たな領域

シャドーAIの潜在的な脅威に対処するための4つのヒント

テレンス・タオがGPT-4のチャット履歴を公開、研究アシスタントを入手するにはここをクリック