LLM をオペレーティングシステムとして考えてみましょう。無制限の「仮想」コンテキストがあり、バークレーの新しい研究には 1.7k の星があります。

LLM をオペレーティングシステムとして考えてみましょう。無制限の「仮想」コンテキストがあり、バークレーの新しい研究には 1.7k の星があります。

近年、大規模言語モデル (LLM) とその基盤となるトランスフォーマー アーキテクチャは会話型 AI の基礎となり、幅広い消費者向けおよび企業向けアプリケーションを生み出しています。大きな進歩があったにもかかわらず、LLM で使用される固定長のコンテキスト ウィンドウは、長い会話や長いドキュメントについての推論への適用性を大幅に制限します。最も広く使用されているオープンソース LLM でさえ、最大入力長が制限されており、数十のメッセージ返信や短いドキュメントの推論しかサポートできません。

同時に、トランスフォーマー アーキテクチャの自己注意メカニズムの制限により、トランスフォーマーのコンテキスト長を単純に拡張すると、計算時間とメモリ コストが指数関数的に増加するため、新しいロング コンテキスト アーキテクチャは緊急の研究課題となっています。

しかし、コンテキストスケーリングの計算上の課題を克服できたとしても、最近の研究では、長いコンテキストのモデルでは追加のコンテキストを効果的に活用することが難しいことが示されています。

これをどうやって解決すればいいでしょうか? SOTA LLM をトレーニングするために必要な大量のリソースと、コンテキスト スケーリングの明らかな収益減少を考慮すると、長いコンテキストをサポートする代替技術が緊急に必要とされています。カリフォルニア大学バークレー校の研究者たちは、この点に関して新たな進歩を遂げた。

この論文では、研究者らは、固定コンテキスト モデルを引き続き使用しながら、無限のコンテキストの錯覚をどのように提供するかを検討しています。彼らのアプローチは仮想メモリ ページングのアイデアを借用しており、アプリケーションが利用可能なメモリをはるかに超えるデータ セットを処理できるようにします。

このアイデアに基づいて、研究者は LLM エージェントの関数呼び出し機能の最新の進歩を活用し、仮想コンテキスト管理用の OS にヒントを得た LLM システムである MemGPT を設計しました。

論文ホームページ: https://memgpt.ai/

arXivアドレス: https://arxiv.org/pdf/2310.08560.pdf

このプロジェクトはオープンソース化されており、GitHub で 1.7k 個のスターを獲得しています。

GitHub アドレス: https://github.com/cpacker/MemGPT

方法の概要

この研究は、コンテキスト ウィンドウ (オペレーティング システムの「メイン メモリ」に類似) と外部ストレージ間で情報を効果的に「ページング」する従来のオペレーティング システムの階層型メモリ管理からヒントを得ています。 MemGPT は、メモリ、LLM 処理モジュール、およびユーザー間の制御フローを管理する役割を担います。この設計により、単一のタスク中にコンテキストを繰り返し変更できるため、エージェントは限られたコンテキスト ウィンドウをより効果的に活用できます。

MemGPT はコンテキスト ウィンドウを制約されたメモリ リソースと見なし、従来のオペレーティング システムの階層型メモリに似た LLM の階層構造を設計します (Patterson ら、1988)。より長いコンテキスト長を提供するために、この研究では、LLM が「LLM OS」である MemGPT を介してコンテキスト ウィンドウに配置されたコンテンツを管理できるようにしています。 MemGPT により、LLM はオペレーティング システムのページ フォールトと同様に、コンテキスト内で失われた関連する履歴データを取得できるようになります。さらに、プロセスが仮想メモリに繰り返しアクセスするのと同様に、エージェントは単一のタスク コンテキスト ウィンドウの内容を繰り返し変更できます。

MemGPT により、LLM は制限されたコンテキスト ウィンドウを持つ無制限のコンテキストを処理できるようになります。MemGPT のコンポーネントを下の図 1 に示します。

MemGPT は、関数呼び出しを通じてメイン コンテキスト (コンテキスト ウィンドウ内のコンテンツ) と外部コンテキスト間のデータの移動を調整し、現在のコンテキストに基づいてデータを自律的に更新および取得します。

下の図 3 に示すように、コンテキスト ウィンドウでは、制限を示すために警告トークンを使用する必要があることに注意してください。

実験と結果

実験部分では、研究者らは会話エージェントと文書処理という 2 つの長期コンテキスト領域で MemGPT を評価しました。会話エージェントについては、既存のマルチセッションチャットデータセット(Xu et al. (2021))を拡張し、長い会話で知識を保持するエージェントの能力を評価するための2つの新しい会話タスクを導入しました。文書分析については、Liu et al. (2023a) が提案したタスク(長い文書での質問回答やキー値検索など)で MemGPT をベンチマークしました。

会話エージェント向け MemGPT

ユーザーと会話を行う場合、エージェントは次の 2 つの重要な基準を満たす必要があります。

  • 1 つ目は一貫性です。つまり、エージェントは会話の一貫性を維持し、提供される新しい事実、参照、イベントは、ユーザーとエージェントの以前の発言と一致している必要があります。
  • 2 つ目はエンゲージメントです。つまり、エージェントはユーザーの長期的な知識を活用して応答をパーソナライズする必要があります。以前の会話を参照することで、会話がより自然で魅力的なものになります。

したがって、研究者は次の 2 つの基準に基づいて MemGPT を評価しました。

  • MemGPT はメモリを使用して会話の一貫性を向上させることができますか?継続性を保つために、過去のやり取りから関連する事実、引用、出来事を覚えていますか?
  • MemGPT はメモリを使用して、より魅力的な会話を生成できますか?メッセージをパーソナライズするために、リモート ユーザー情報が自発的に組み込まれていますか?

使用されたデータセットに関して、研究者らは、Xuら(2021)が提案したマルチセッションチャット(MSC)上のMemGPTと固定コンテキストベースラインモデルを評価および比較しました。

まず、一貫性を評価しましょう。研究者らは、会話エージェントの一貫性をテストするために、MSC データセットに基づく深層記憶検索 (DMR) タスクを導入しました。 DMR では、ユーザーは会話エージェントに以前の会話を明示的に参照する質問をしますが、期待される回答の範囲は非常に狭くなります。詳細については、下の図 5 の例を参照してください。

MemGPT はメモリを使用して一貫性を維持します。以下の表 2 は、MemGPT と、GPT-3.5 および GPT-4 を含む固定メモリ ベースライン モデルのパフォーマンス比較を示しています。

MemGPTは、LLM判定精度とROUGE-Lスコアの点でGPT-3.5とGPT-4を大幅に上回っていることがわかります。 MemGPT は、コンテキストを拡張するために再帰的な要約に頼るのではなく、Recall Memory を活用して過去の会話履歴を照会し、DMR の質問に答えることができます。

次に、「会話のきっかけ」タスクでは、研究者らは、エージェントが以前の会話から蓄積された知識から魅力的なメッセージを抽出し、ユーザーに届ける能力を評価しました。

研究者らは、MemGPT 冒頭陳述の CSIM スコアを以下の表 3 に示しています。結果は、MemGPT が、人間が手書きした冒頭文と同等かそれ以上の魅力的な冒頭文を作成できることを示しています。また、MemGPT は、人間のベースラインよりも長く、より多くの文字情報をカバーする冒頭行を生成する傾向があることも観察されています。下の図6が例です。

文書分析のためのMemGPT

MemGPTの文書分析能力を評価するために、Liu et al. (2023a)のリトリーバー・リーダー文書QAタスクで固定コンテキストベースラインモデルに対してMemGPTをベンチマークしました。

結果は、MemGPT がアーカイブ ストアを照会することでリトリーバーへの複数の呼び出しを効率的に実行し、より有効なコンテキスト長に拡張できることを示しています。 MemGPT はアーカイブ ストアからドキュメントをアクティブに取得し、結果を繰り返しページングできるため、利用可能なドキュメントの総数は、LLM プロセッサ コンテキスト ウィンドウに収まるドキュメントの数によって制限されなくなります。

埋め込みベースの類似性検索には制限があるため、ドキュメント QA タスクはすべての方法にとって大きな課題となります。研究者たちは、リトリーバー データベースが枯渇する前に、MemGPT がリトリーバーの結果のページングを停止することを観察しました。

また、MemGPT のより複雑な操作によって作成された取得ドキュメントの容量にもトレードオフがあり、下の図 7 に示すように、平均精度は GPT-4 よりも低くなりますが (GPT-3.5 よりも高い)、より大きなドキュメントに簡単に拡張できます。

研究者らはまた、合成キー値検索に基づく新しいタスク、つまりネストされたキー値検索を導入し、MemGPT が複数のデータ ソースからの情報を整理する方法を実証しました。

結果から、GPT-3.5 と GPT-4 は元のキー値タスクでは良好なパフォーマンスを示しましたが、ネストされたキー値検索タスクではパフォーマンスが低かったことがわかりました。一方、MemGPT はネスト レベルの数の影響を受けず、関数クエリを通じてメイン メモリに格納されているキーと値のペアに繰り返しアクセスすることで、ネストされた検索を実行できます。

ネストされたキー値取得タスクにおける MemGPT のパフォーマンスは、複数のクエリを組み合わせて複数の検索を実行する能力を示しています。

より詳しい技術的な詳細と実験結果については、原著論文を参照してください。

<<:  AIエージェント、起動!復旦 NLP チームが 86 ページのレビューを発表: インテリジェント社会はすぐそこ

>>:  正解率が7.8%アップしました!最初のマルチモーダルオープンワールド検出モデルMQ-DetがNeurIPS 2023に掲載されました

推薦する

新世代の人工知能標準システムを構築するには?ガイドが来ます →

国家標準化局中央サイバースペース委員会 国家発展改革委員会 科学技術省 工業情報化省 「 国家新世...

メーター読み取りシステムにおける無線データ伝送モジュールの応用

周知のとおり、従来の手動メーター読み取り方法は時間がかかり、労働集約的であり、その正確性と適時性は保...

...

AIは人間の仕事を奪うが、これらの業界ではより多くの仕事も生み出すだろう

イーロン・マスク、ビル・ゲイツらは、人工知能(以下、AI)が「世界の終末」をもたらすだろうと国民に繰...

GPT-4の完全クラック版:最新の公式APIで微調整され、何でもできる、ネットユーザーは恐れている

最新の微調整 API を使用する限り、GPT-4 はあらゆることを行うのに役立ち、有害な情報を出力し...

2019年の中国の人工知能産業と産業配置の分析

[[282510]] 11月9日、ロシアのプーチン大統領はモスクワで開かれた第一回「人工知能への旅」...

東京オリンピックでAI技術を披露:「人工」から「人工知能」へ

「人工」から「人工知能」への移行は、時代の急速な進歩と科学技術の急速な発展です。今こそ、今回のオリン...

ラブライブ!AI論文発表:生成モデルが楽譜を自動生成

有名アイドルプロジェクト「ラブライブ!」がAI論文を発表しました。そうです。最近、プレプリント論文プ...

AI がデータセンターのワークロード管理の課題を解決する方法

データセンターのワークロードが急増し続ける中、効率性を向上させてコストを削減しながら IT チームの...

...

AlphaDev がソートアルゴリズムを 70% 高速化! C言語ライブラリの作者がDeepMindの最新AIについて解説

数日前、DeepMind はソートアルゴリズムを 70% 直接的に高速化する AlphaDev をリ...

ランセットの最新記事:主要都市での流行は武漢より1~2週間遅れる

一方で感染症の予防と抑制、他方で春節の旅行ラッシュの帰省があり、今年の仕事再開への道のりは異例のもの...

...

...