1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

大きなモデルはすべてコンテキスト ウィンドウをロールアップしました。Llama -1 のときは、標準構成はまだ 2k でしたが、今では 100k を超えないと外出するのが恥ずかしくなります。

しかし、極端なテストを行ったところ、ほとんどの人が AI を誤って使用しており、 AI の潜在能力を十分に引き出せていないことが判明しました。

AI は何十万もの単語から重要な事実を本当に正確に見つけることができるのでしょうか?色が赤くなるほど、AI が犯した間違いが多くなります。

デフォルトでは、 GPT-4-128k と新しくリリースされた Claude2.1-200k のパフォーマンスは低下します。

しかし、状況を理解した後、クロード氏のチームは非常にシンプルな解決策を思いつきました。1 つの文を追加するだけで、スコアが 27% から 98% に直接上昇したのです。

ただし、この文章はユーザーの質問に追加されるのではなく、回答の冒頭で AI に言わせるようになっています。

「この文脈で最も関連のある文は次のとおりです。」

(これは文脈上最も関連のある文です:)

大型モデルで干し草の山から針を探す

著者のグレッグ・カムラッド氏は、このテストを実施するために少なくとも150ドルを自費で費やしました。

幸運なことに、Claude2.1 をテストしていたとき、Anthropic が彼に連絡し、無料のクレジットを提供してくれました。そうでなければ、彼はさらに 1,016 ドルを支払わなければなりませんでした。

実際、テスト方法は複雑ではありません。YC の創設者 Paul Graham による 218 件のブログ投稿がテストデータとして使用されました。

ドキュメント内のさまざまな場所に具体的な文を追加します。サンフランシスコで一番楽しいことは、晴れた日にドロレス パークに座ってサンドイッチを食べることです。

GPT-4 と Claude2.1 に、提供されたコンテキストのみを使用して質問に答えるように依頼し、コンテキストの長さが異なり、異なる位置に追加されたドキュメントを繰り返しテストします。

最後に、Langchain Evals ライブラリを使用して結果を評価します。

作者はこの一連のテストを「干し草の山から針を探す」と名付け、GitHub でコードをオープンソース化した。このコードには 200 以上のスターが付けられている。作者はまた、ある企業が次の大規模モデルのテストを後援していることも明らかにした。

AI企業は自ら解決策を見つける

数週間後、Claude の開発元であるAnthropic社がデータを慎重に分析したところ、AI は文書内の一文に基づいた質問に答えようとしないことが分かりました。特に、その文が後から挿入されたもので、記事全体とほとんど関係がない場合はそうでした。

つまり、AIはこの文が記事の主題とは無関係であると判断したため、怠けて文ごとに調べなかったことになります。

このとき、AI を騙すにはいくつかのトリックを使用する必要があります。クロードに、回答の冒頭に「文脈で最も関連性の高い文は次のとおりです」と追加するように依頼することができます。

この方法を使用すると、後から追加されたのではなく、元々元のテキストにあった文を見つける際の Claude のパフォーマンスも向上します。

アントロピック社は、クロードがこのような作業にうまく適応できるよう、今後も訓練を継続していくと述べた。

API を呼び出すときに、指定された始まりで応答するように AI に要求することができ、これには他の用途もあります。

この計画を見た起業家のマット・シューマー氏は、いくつかのヒントを付け加えた。

AI に純粋な JSON 形式を出力させたい場合は、プロンプト ワードを「{」で終わらせます。同様に、AI にローマ数字をリストさせたい場合は、プロンプトを「I:」で終わらせます。

しかし、まだ終わりではありません…

国内の大手模型メーカーもこの試験に注目し、自社の大型模型がこの試験に合格できるかどうか試し始めた。

同じく超ロングコンテキストを持つDark Side of the Moon Kimi 大型モデルチームもこの問題を検出しましたが、異なる解決策を提示し、良好な結果を達成しました。

このように、特に API を呼び出すのではなくチャットボット製品を直接使用する場合は、AI に回答に文章を追加するように依頼するよりも、ユーザーの質問プロンプトを変更する方が簡単です。

Dark Side of the Moon は、新しい方法を使用して GPT-4 と Claude2.1 もテストしました。結果は、GPT-4 が大幅に改善されたのに対し、Claude2.1 はわずかな改善にとどまったことを示しました。

この実験自体には一定の制限があるようです。Claude にも独自の特殊性があり、これは独自の調整方法である Constituional AI に関連している可能性があります。Anthropic 自体が提供する方法を使用する方がよいでしょう。

その後、ダークサイド・オブ・ザ・ムーンのエンジニアたちはさらに実験を重ね、そのうちの 1 つが次のような結果になりました...

壊れました、テストデータになりました。

<<:  誇張する! EMNLPには約5,000本の論文が提出され、賞が発表されました。北京大学とテンセントが最優秀長編論文賞を受賞しました。

>>: 

ブログ    
ブログ    

推薦する

CVとNLPにおける対照学習の研究の進展

[[423166]]対照学習(CV)比較学習は何をするのでしょうか?教師ありトレーニングの典型的な問...

サイバーセキュリティにおける言語モデルの優れた使用例 12 件

サイバーセキュリティは人工知能の最大の市場セグメントであり、過去数年間にわたってサイバーセキュリティ...

...

報告書:人工知能は5年以内に人間の雇用を著しく脅かすだろう

ある報告書によると、自動化と人工知能は最大5年以内に人間の雇用を脅かすことになるという。このような状...

...

3万語に及ぶ記事: サーバー開発と設計のためのアルゴリズム集

[[442986]]孫子はこう言った。「行軍と戦闘の最善の方法は戦略を使うこと、次に良いのは敵の同盟...

テキスト生成画像は非常に人気があり、これらの技術の進化を理解する必要があります

OpenAIは最近、AIコミュニティに「地震」を引き起こしたDALL・E 2システムをリリースしま...

...

2024年の製造業の現状:完全デジタル化

世界全体、特に製造業は、パンデミック中に発生した問題や数年前の大規模なサプライチェーンの混乱から脱し...

データセット検索アーティファクト! 100 個の大規模な機械学習データセットがここに収集されています

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

北京の自動運転路上試験、安全走行距離が300万キロ超え

IT Homeは5月30日、新華社通信が伝えたところによると、記者が29日に北京市インテリジェント車...

次のマーク・ザッカーバーグはAIになるのか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

AIの活用を拡大するには? 人工知能には「1%の問題」がある

人工知能(AI)については多くの報道や解説がなされてきました。奇跡を起こすことができると言う人もいれ...

2022年、AIネットワーク管理が信頼を高める

米国で売上高最大のソーセージブランドであるジョンソンビルソーセージのグローバルネットワークオペレーシ...

...