最新の Claude 200K は本当に「誤ったラベル」が貼られているのでしょうか?神は1016ドルを費やしてテストしましたが、90Kを超えるとパフォーマンスが急激に低下しました。

最新の Claude 200K は本当に「誤ったラベル」が貼られているのでしょうか?神は1016ドルを費やしてテストしましたが、90Kを超えるとパフォーマンスが急激に低下しました。

OpenAI が成功に忙しい一方で、シリコンバレーの最大のライバルである Anthropic は、20 万のコンテキストをサポートする Claude 2.1 をリリースし、ひっそりと大きなニュースを発信しました。

Claude 2.1 の最大のアップグレードは、すでに強力な 100K コンテキスト機能が 2 倍になったことであることがわかります。

200K コンテキストにより、ユーザーはより多くのドキュメントをより便利に処理できるだけでなく、モデルの幻覚の可能性も 2 倍減少します。同時に、システムプロンプトやガジェットの使用などもサポートします。

ほとんどの一般ユーザーにとって、Claude の最大の価値は、GPT-4 よりも強力なコンテキスト能力です。GPT-4 のコンテキスト長を超える長いドキュメントを Claude に渡して処理するのは非常に便利です。

これにより、Claude は ChatGPT より劣る選択肢ではなく、機能面で ChatGPT を補完するもう 1 つの強力なツールになります。

そのため、Claude 2.1 がリリースされるとすぐに、ネットユーザーは公式に主張されている「200K」コンテキスト機能がどれほど強力であるかをテストし始めました。

クロード 2.1 200K コンテキスト テスト: 最初と最後は最も明確ですが、中間はほとんど記憶に残りません

今月初め、OpenAIがGPT-4 turboをリリースしたとき、技術の第一人者であるGreg Kamradt氏がOpenAIの新しいモデルをさまざまな側面からテストしました。

彼は、YC 創設者ポール・グラハムの記事のさまざまな部分にマークされた文章を追加し、それをモデルに入力して、これらの文章を読み取る能力をテストしました。

ほぼ同じ方法を使用して、Claude 2.1 のコンテキスト機能もストレステストしました。

ネット閲覧総数は2日間で110万回を突破

テスト結果は次のとおりです:

公式の公称制限長 200K では、Claude 2.1 はマークされた文を実際に抽出できます。

文書の冒頭でマークされた内容は、ほぼ完全に取得できます。

しかし、GPT-4 Turbo の場合と同様に、このモデルはドキュメントの下部にあるコンテンツほどドキュメントの先頭にあるコンテンツをキャプチャするのに効果的ではありません。

長さが 90K を超えると、ドキュメントの下部にあるマークされたコンテンツをキャプチャするモデルの能力が低下し始めます。

図から、GPT-4 128K のテスト結果と比較すると、Claude 2.1 200K のコンテキスト長は、ちょうど「200K の長さの記事の情報を読み取ることができる」ことがわかります。

GPT-4 128K の場合、「128K の長さを超えると大幅な低下が見られます」。

GPT-4 128K 品質標準に従うと、Claude 2.1 は 90K のコンテキスト長しか主張できない可能性があります。

テストマスターのグレッグによると、これらのテスト結果は次のことを示しています。

コンテキスト検索の精度を測定するには、ユーザーはプロンプト単語を特別に設計するか、複数のテストを行う必要があります。

アプリケーション開発者は、これらのコンテキスト内の情報が取得できると単純に想定することはできません。

一般的に、コンテキストの長さが短いコンテンツは検索能力が高くなります。検索品質に対する要件が高い場合は、モデルに入力されるコンテキストの長さを短くしてみてください。

重要な情報の位置は重要であり、最初と最後の情報のほうが覚えやすくなります。

彼はさらに、なぜこの比較テストを行ったのかを説明しました。

彼は Anthropic を批判するつもりはありません。彼らの製品は本当に素晴らしいですし、彼らは誰にとっても強力な AI ツールを構築しています。

LLM 実践者として、彼はモデルの動作原理、利点、限界をより深く理解する必要があります。

これらのテストには確かに不完全な部分もありますが、モデルのユーザーがモデルベースのサービスをより適切に構築したり、モデルの機能をより効果的に使用したりするのに役立ちます。

テスト中に、彼はいくつかの詳細も発見しました。

モデルが思い出すことができるラベル付き事実の量は重要であり、モデルが複数の事実検索タスクまたは包括的な推論ステップを実行すると、思い出される事実の量は減少します。

思い出すきっかけとなる言葉、質問、事実、背景の文脈を変えると、思い出す質に影響を与える可能性があります。

Anthropic チームもテスト プロセス中に多くの支援と提案を提供しましたが、API へのテスト呼び出しには依然として作者に 1,016 ドルの費用がかかりました (100 万トークンあたりのコストは 8 ドルでした)。

GPT-4 128Kの最初のテストに200ドルを支払いました

今月初め、OpenAI は開発者会議で GPT-4 Turbo をリリースした際に、コンテキスト機能を 128K に拡張したことも発表しました。

当時、Greg Kamradt 氏はテストのために自腹で 200 ドルを支払いました (一度に 128K トークンを入力するコストは 1.28 ドルでした)。

傾向から判断すると、今回の Anthropic の結果と似ています。

コンテキストが 73K トークンを超えると、GPT-4 のメモリ パフォーマンスが低下し始めます。

想起すべき事実が文書の深さの 7% ~ 50% の範囲にある場合、想起率は一般的に低くなります。

事実が文書の先頭にある場合、コンテキストの長さに関係なく、通常は正常に思い出されます。

テスト全体の詳細な手順は次のとおりです。

Paul Graham の記事を「背景」トークンとして使用します。私は彼の記事を 218 件使用し、簡単に 200K トークンに到達しました (一部の記事は再利用されました)。

文書のさまざまな深さに、「サンフランシスコで一番楽しいことは、晴れた日にドロレス パークでサンドイッチを食べることです」という事実を述べたランダムな文を挿入します。

GPT-4 は、提供されたコンテキストのみに基づいてこの質問に答えます。

別のモデル (GPT-4) と @LangChainAI の評価方法を使用して、GPT-4 の回答を評価します。

上記の手順は、15 種類の異なるドキュメント深度 (ドキュメント上部の 0% から下部の 100% まで) と 15 種類の異なるコンテキスト長 (1K トークンから 128K トークンまで) に対して繰り返されます。

<<: 

>>:  LeCun が喧嘩を始めた、LLM は全く理屈が通らない!大規模モデルの出現は、最終的には文脈学習と切り離せないものである。

ブログ    

推薦する

Facebook、動画から学習する新たなAIプロジェクトを開始

3月30日、海外メディアの報道によると、Facebookの開発者らは、公開動画から学習できる「Lea...

人工知能は人類を情報社会から知能社会へと導く

[[315663]]人工知能(AI)とは、人間と同等かそれ以上の知覚、認知、行動などの知能を機械に実...

最も人気のある 12 の AI ツール、ライブラリ、プラットフォーム

[[205783]]近年 AI の利用が増えているため、利用可能な AI ツール、ライブラリ、プラッ...

単眼輝度画像を用いた顔深度マップ推定のための敵対的アーキテクチャによるディープラーニング

本論文では、単眼輝度画像から顔の深度マップを推定する敵対的アーキテクチャを提案する。 画像対画像のア...

データセンター不足がAIの未来を阻害している理由

多くの企業が AI テクノロジーの開発と導入に数十億ドルを投資しています。知的財産の問題、潜在的な規...

AGI(汎用人工知能)は数年のうちに実現されるでしょうか? 3つのテクノロジー大手が判決を下す

2011年、Google DeepMindの共同創設者であるシェーン・レッグは、2028年までにAI...

年間100万ドルの給料でも、このタイプの才能のギャップを埋めることはできません。 AI業界も「人手不足」

年収100万の仕事に就くことを夢見たことがありますか?人工知能業界に参入して、あなたの夢を現実にしま...

...

...

機械学習とビジネスを組み合わせる上で最も重要なことは何でしょうか?

純粋に学術的な目的で機械学習モデルを構築することと、製造、金融サービス、小売、エンターテインメント、...

ドローン時代の到来により、人工知能航空機が有人戦闘機に取って代わり、パイロットは失業することになるのでしょうか?

まず、ドローンはソレイマニの暗殺に使用され、その後、アルメニアとアゼルバイジャンの戦場でドローンが活...

人工知能は視覚効果アーティストの役割に取って代わるでしょうか?

視覚効果 (VFX) の分野における AI の統合は、シームレスでデータ主導のアプローチを導入するこ...

GoogleはAIを活用して古い地図情報を更新

Google はブログ投稿で、同社の AI がさまざまな要素を分析して、こうした更新を行うべきかどう...