最新の Claude 200K は本当に「誤ったラベル」が貼られているのでしょうか?神は1016ドルを費やしてテストしましたが、90Kを超えるとパフォーマンスが急激に低下しました。

OpenAI が成功に忙しい一方で、シリコンバレーの最大のライバルである Anthropic は、20 万のコンテキストをサポートする Claude 2.1 をリリースし、ひっそりと大きなニュースを発信しました。

Claude 2.1 の最大のアップグレードは、すでに強力な 100K コンテキスト機能が 2 倍になったことであることがわかります。

200K コンテキストにより、ユーザーはより多くのドキュメントをより便利に処理できるだけでなく、モデルの幻覚の可能性も 2 倍減少します。同時に、システムプロンプトやガジェットの使用などもサポートします。

ほとんどの一般ユーザーにとって、Claude の最大の価値は、GPT-4 よりも強力なコンテキスト能力です。GPT-4 のコンテキスト長を超える長いドキュメントを Claude に渡して処理するのは非常に便利です。

これにより、Claude は ChatGPT より劣る選択肢ではなく、機能面で ChatGPT を補完するもう 1 つの強力なツールになります。

そのため、Claude 2.1 がリリースされるとすぐに、ネットユーザーは公式に主張されている「200K」コンテキスト機能がどれほど強力であるかをテストし始めました。

クロード 2.1 200K コンテキストテスト: 最初と最後は最も明確ですが、中間はほとんど記憶に残りません

今月初め、OpenAIがGPT-4 turboをリリースしたとき、技術の第一人者であるGreg Kamradt氏がOpenAIの新しいモデルをさまざまな側面からテストしました。

彼は、YC 創設者ポール・グラハムの記事のさまざまな部分にマークされた文章を追加し、それをモデルに入力して、これらの文章を読み取る能力をテストしました。

ほぼ同じ方法を使用して、Claude 2.1 のコンテキスト機能もストレステストしました。

ネット閲覧総数は2日間で110万回を突破

テスト結果は次のとおりです:

公式の公称制限長 200K では、Claude 2.1 はマークされた文を実際に抽出できます。

文書の冒頭でマークされた内容は、ほぼ完全に取得できます。

しかし、GPT-4 Turbo の場合と同様に、このモデルはドキュメントの下部にあるコンテンツほどドキュメントの先頭にあるコンテンツをキャプチャするのに効果的ではありません。

長さが 90K を超えると、ドキュメントの下部にあるマークされたコンテンツをキャプチャするモデルの能力が低下し始めます。

図から、GPT-4 128K のテスト結果と比較すると、Claude 2.1 200K のコンテキスト長は、ちょうど「200K の長さの記事の情報を読み取ることができる」ことがわかります。

GPT-4 128K の場合、「128K の長さを超えると大幅な低下が見られます」。

GPT-4 128K 品質標準に従うと、Claude 2.1 は 90K のコンテキスト長しか主張できない可能性があります。

テストマスターのグレッグによると、これらのテスト結果は次のことを示しています。

コンテキスト検索の精度を測定するには、ユーザーはプロンプト単語を特別に設計するか、複数のテストを行う必要があります。

アプリケーション開発者は、これらのコンテキスト内の情報が取得できると単純に想定することはできません。

一般的に、コンテキストの長さが短いコンテンツは検索能力が高くなります。検索品質に対する要件が高い場合は、モデルに入力されるコンテキストの長さを短くしてみてください。

重要な情報の位置は重要であり、最初と最後の情報のほうが覚えやすくなります。

彼はさらに、なぜこの比較テストを行ったのかを説明しました。

彼は Anthropic を批判するつもりはありません。彼らの製品は本当に素晴らしいですし、彼らは誰にとっても強力な AI ツールを構築しています。

LLM 実践者として、彼はモデルの動作原理、利点、限界をより深く理解する必要があります。

これらのテストには確かに不完全な部分もありますが、モデルのユーザーがモデルベースのサービスをより適切に構築したり、モデルの機能をより効果的に使用したりするのに役立ちます。

テスト中に、彼はいくつかの詳細も発見しました。

モデルが思い出すことができるラベル付き事実の量は重要であり、モデルが複数の事実検索タスクまたは包括的な推論ステップを実行すると、思い出される事実の量は減少します。

思い出すきっかけとなる言葉、質問、事実、背景の文脈を変えると、思い出す質に影響を与える可能性があります。

Anthropic チームもテストプロセス中に多くの支援と提案を提供しましたが、API へのテスト呼び出しには依然として作者に 1,016 ドルの費用がかかりました (100 万トークンあたりのコストは 8 ドルでした)。

GPT-4 128Kの最初のテストに200ドルを支払いました

今月初め、OpenAI は開発者会議で GPT-4 Turbo をリリースした際に、コンテキスト機能を 128K に拡張したことも発表しました。

当時、Greg Kamradt 氏はテストのために自腹で 200 ドルを支払いました (一度に 128K トークンを入力するコストは 1.28 ドルでした)。

傾向から判断すると、今回の Anthropic の結果と似ています。

コンテキストが 73K トークンを超えると、GPT-4 のメモリパフォーマンスが低下し始めます。
想起すべき事実が文書の深さの 7% ～ 50% の範囲にある場合、想起率は一般的に低くなります。
事実が文書の先頭にある場合、コンテキストの長さに関係なく、通常は正常に思い出されます。

テスト全体の詳細な手順は次のとおりです。

Paul Graham の記事を「背景」トークンとして使用します。私は彼の記事を 218 件使用し、簡単に 200K トークンに到達しました (一部の記事は再利用されました)。

文書のさまざまな深さに、「サンフランシスコで一番楽しいことは、晴れた日にドロレスパークでサンドイッチを食べることです」という事実を述べたランダムな文を挿入します。

GPT-4 は、提供されたコンテキストのみに基づいてこの質問に答えます。

別のモデル (GPT-4) と @LangChainAI の評価方法を使用して、GPT-4 の回答を評価します。

上記の手順は、15 種類の異なるドキュメント深度 (ドキュメント上部の 0% から下部の 100% まで) と 15 種類の異なるコンテキスト長 (1K トークンから 128K トークンまで) に対して繰り返されます。

<<:

>>: LeCun が喧嘩を始めた、LLM は全く理屈が通らない!大規模モデルの出現は、最終的には文脈学習と切り離せないものである。

最新の Claude 200K は本当に「誤ったラベル」が貼られているのでしょうか?神は1016ドルを費やしてテストしましたが、90Kを超えるとパフォーマンスが急激に低下しました。

クロード 2.1 200K コンテキストテスト: 最初と最後は最も明確ですが、中間はほとんど記憶に残りません

GPT-4 128Kの最初のテストに200ドルを支払いました

人工知能を背景にした教育の未来を探る

COVID-19パンデミックの中、米国の産業界ではロボットがアメリカ人の雇用を急速に置き換えている

ローコード自動化が銀行業務をどう変えるか

ロボットと触覚センシング技術の衝突、人間とロボットの触覚センシングを初めて探る記事

Microsoft Store AIの概要機能がプレビュー版としてリリースされ、ユーザーがアプリのレビューを素早く理解できるようになりました。

人工知能の発展には限界が必要

規制がなければ、AIは金融危機を引き起こす可能性がある

信頼できる AI はどのように発展すべきでしょうか?

ホテルは機械学習を使ってどのゲストが立ち上がるかを予測する

推薦する

Facebook、動画から学習する新たなAIプロジェクトを開始

人工知能は人類を情報社会から知能社会へと導く

最も人気のある 12 の AI ツール、ライブラリ、プラットフォーム

LLM は必要ありません。遺伝的プログラミングで Python コードを制御できます。 Google DeepMindらが新しいARZフレームワークを提案

単眼輝度画像を用いた顔深度マップ推定のための敵対的アーキテクチャによるディープラーニング

データセンター不足がAIの未来を阻害している理由

AGI（汎用人工知能）は数年のうちに実現されるでしょうか？ 3つのテクノロジー大手が判決を下す

年間100万ドルの給料でも、このタイプの才能のギャップを埋めることはできません。 AI業界も「人手不足」

機械学習とビジネスを組み合わせる上で最も重要なことは何でしょうか?

ドローン時代の到来により、人工知能航空機が有人戦闘機に取って代わり、パイロットは失業することになるのでしょうか？

人工知能は視覚効果アーティストの役割に取って代わるでしょうか?

人工知能は人間の心に挑戦できない

GoogleはAIを活用して古い地図情報を更新

クロード 2.1 200K コンテキスト テスト: 最初と最後は最も明確ですが、中間はほとんど記憶に残りません

GPT-4 128Kの最初のテストに200ドルを支払いました

推薦する

クロード 2.1 200K コンテキストテスト: 最初と最後は最も明確ですが、中間はほとんど記憶に残りません