LLM をオペレーティングシステムとして考えてみましょう。無制限の「仮想」コンテキストがあり、バークレーの新しい研究には 1.7k の星があります。

LLM をオペレーティングシステムとして考えてみましょう。無制限の「仮想」コンテキストがあり、バークレーの新しい研究には 1.7k の星があります。

近年、大規模言語モデル (LLM) とその基盤となるトランスフォーマー アーキテクチャは会話型 AI の基礎となり、幅広い消費者向けおよび企業向けアプリケーションを生み出しています。大きな進歩があったにもかかわらず、LLM で使用される固定長のコンテキスト ウィンドウは、長い会話や長いドキュメントについての推論への適用性を大幅に制限します。最も広く使用されているオープンソース LLM でさえ、最大入力長が制限されており、数十のメッセージ返信や短いドキュメントの推論しかサポートできません。

同時に、トランスフォーマー アーキテクチャの自己注意メカニズムの制限により、トランスフォーマーのコンテキスト長を単純に拡張すると、計算時間とメモリ コストが指数関数的に増加するため、新しいロング コンテキスト アーキテクチャは緊急の研究課題となっています。

しかし、コンテキストスケーリングの計算上の課題を克服できたとしても、最近の研究では、長いコンテキストのモデルでは追加のコンテキストを効果的に活用することが難しいことが示されています。

これをどうやって解決すればいいでしょうか? SOTA LLM をトレーニングするために必要な大量のリソースと、コンテキスト スケーリングの明らかな収益減少を考慮すると、長いコンテキストをサポートする代替技術が緊急に必要とされています。カリフォルニア大学バークレー校の研究者たちは、この点に関して新たな進歩を遂げた。

この論文では、研究者らは、固定コンテキスト モデルを引き続き使用しながら、無限のコンテキストの錯覚をどのように提供するかを検討しています。彼らのアプローチは仮想メモリ ページングのアイデアを借用しており、アプリケーションが利用可能なメモリをはるかに超えるデータ セットを処理できるようにします。

このアイデアに基づいて、研究者は LLM エージェントの関数呼び出し機能の最新の進歩を活用し、仮想コンテキスト管理用の OS にヒントを得た LLM システムである MemGPT を設計しました。

論文ホームページ: https://memgpt.ai/

arXivアドレス: https://arxiv.org/pdf/2310.08560.pdf

このプロジェクトはオープンソース化されており、GitHub で 1.7k 個のスターを獲得しています。

GitHub アドレス: https://github.com/cpacker/MemGPT

方法の概要

この研究は、コンテキスト ウィンドウ (オペレーティング システムの「メイン メモリ」に類似) と外部ストレージ間で情報を効果的に「ページング」する従来のオペレーティング システムの階層型メモリ管理からヒントを得ています。 MemGPT は、メモリ、LLM 処理モジュール、およびユーザー間の制御フローを管理する役割を担います。この設計により、単一のタスク中にコンテキストを繰り返し変更できるため、エージェントは限られたコンテキスト ウィンドウをより効果的に活用できます。

MemGPT はコンテキスト ウィンドウを制約されたメモリ リソースと見なし、従来のオペレーティング システムの階層型メモリに似た LLM の階層構造を設計します (Patterson ら、1988)。より長いコンテキスト長を提供するために、この研究では、LLM が「LLM OS」である MemGPT を介してコンテキスト ウィンドウに配置されたコンテンツを管理できるようにしています。 MemGPT により、LLM はオペレーティング システムのページ フォールトと同様に、コンテキスト内で失われた関連する履歴データを取得できるようになります。さらに、プロセスが仮想メモリに繰り返しアクセスするのと同様に、エージェントは単一のタスク コンテキスト ウィンドウの内容を繰り返し変更できます。

MemGPT により、LLM は制限されたコンテキスト ウィンドウを持つ無制限のコンテキストを処理できるようになります。MemGPT のコンポーネントを下の図 1 に示します。

MemGPT は、関数呼び出しを通じてメイン コンテキスト (コンテキスト ウィンドウ内のコンテンツ) と外部コンテキスト間のデータの移動を調整し、現在のコンテキストに基づいてデータを自律的に更新および取得します。

下の図 3 に示すように、コンテキスト ウィンドウでは、制限を示すために警告トークンを使用する必要があることに注意してください。

実験と結果

実験部分では、研究者らは会話エージェントと文書処理という 2 つの長期コンテキスト領域で MemGPT を評価しました。会話エージェントについては、既存のマルチセッションチャットデータセット(Xu et al. (2021))を拡張し、長い会話で知識を保持するエージェントの能力を評価するための2つの新しい会話タスクを導入しました。文書分析については、Liu et al. (2023a) が提案したタスク(長い文書での質問回答やキー値検索など)で MemGPT をベンチマークしました。

会話エージェント向け MemGPT

ユーザーと会話を行う場合、エージェントは次の 2 つの重要な基準を満たす必要があります。

  • 1 つ目は一貫性です。つまり、エージェントは会話の一貫性を維持し、提供される新しい事実、参照、イベントは、ユーザーとエージェントの以前の発言と一致している必要があります。
  • 2 つ目はエンゲージメントです。つまり、エージェントはユーザーの長期的な知識を活用して応答をパーソナライズする必要があります。以前の会話を参照することで、会話がより自然で魅力的なものになります。

したがって、研究者は次の 2 つの基準に基づいて MemGPT を評価しました。

  • MemGPT はメモリを使用して会話の一貫性を向上させることができますか?継続性を保つために、過去のやり取りから関連する事実、引用、出来事を覚えていますか?
  • MemGPT はメモリを使用して、より魅力的な会話を生成できますか?メッセージをパーソナライズするために、リモート ユーザー情報が自発的に組み込まれていますか?

使用されたデータセットに関して、研究者らは、Xuら(2021)が提案したマルチセッションチャット(MSC)上のMemGPTと固定コンテキストベースラインモデルを評価および比較しました。

まず、一貫性を評価しましょう。研究者らは、会話エージェントの一貫性をテストするために、MSC データセットに基づく深層記憶検索 (DMR) タスクを導入しました。 DMR では、ユーザーは会話エージェントに以前の会話を明示的に参照する質問をしますが、期待される回答の範囲は非常に狭くなります。詳細については、下の図 5 の例を参照してください。

MemGPT はメモリを使用して一貫性を維持します。以下の表 2 は、MemGPT と、GPT-3.5 および GPT-4 を含む固定メモリ ベースライン モデルのパフォーマンス比較を示しています。

MemGPTは、LLM判定精度とROUGE-Lスコアの点でGPT-3.5とGPT-4を大幅に上回っていることがわかります。 MemGPT は、コンテキストを拡張するために再帰的な要約に頼るのではなく、Recall Memory を活用して過去の会話履歴を照会し、DMR の質問に答えることができます。

次に、「会話のきっかけ」タスクでは、研究者らは、エージェントが以前の会話から蓄積された知識から魅力的なメッセージを抽出し、ユーザーに届ける能力を評価しました。

研究者らは、MemGPT 冒頭陳述の CSIM スコアを以下の表 3 に示しています。結果は、MemGPT が、人間が手書きした冒頭文と同等かそれ以上の魅力的な冒頭文を作成できることを示しています。また、MemGPT は、人間のベースラインよりも長く、より多くの文字情報をカバーする冒頭行を生成する傾向があることも観察されています。下の図6が例です。

文書分析のためのMemGPT

MemGPTの文書分析能力を評価するために、Liu et al. (2023a)のリトリーバー・リーダー文書QAタスクで固定コンテキストベースラインモデルに対してMemGPTをベンチマークしました。

結果は、MemGPT がアーカイブ ストアを照会することでリトリーバーへの複数の呼び出しを効率的に実行し、より有効なコンテキスト長に拡張できることを示しています。 MemGPT はアーカイブ ストアからドキュメントをアクティブに取得し、結果を繰り返しページングできるため、利用可能なドキュメントの総数は、LLM プロセッサ コンテキスト ウィンドウに収まるドキュメントの数によって制限されなくなります。

埋め込みベースの類似性検索には制限があるため、ドキュメント QA タスクはすべての方法にとって大きな課題となります。研究者たちは、リトリーバー データベースが枯渇する前に、MemGPT がリトリーバーの結果のページングを停止することを観察しました。

また、MemGPT のより複雑な操作によって作成された取得ドキュメントの容量にもトレードオフがあり、下の図 7 に示すように、平均精度は GPT-4 よりも低くなりますが (GPT-3.5 よりも高い)、より大きなドキュメントに簡単に拡張できます。

研究者らはまた、合成キー値検索に基づく新しいタスク、つまりネストされたキー値検索を導入し、MemGPT が複数のデータ ソースからの情報を整理する方法を実証しました。

結果から、GPT-3.5 と GPT-4 は元のキー値タスクでは良好なパフォーマンスを示しましたが、ネストされたキー値検索タスクではパフォーマンスが低かったことがわかりました。一方、MemGPT はネスト レベルの数の影響を受けず、関数クエリを通じてメイン メモリに格納されているキーと値のペアに繰り返しアクセスすることで、ネストされた検索を実行できます。

ネストされたキー値取得タスクにおける MemGPT のパフォーマンスは、複数のクエリを組み合わせて複数の検索を実行する能力を示しています。

より詳しい技術的な詳細と実験結果については、原著論文を参照してください。

<<:  AIエージェント、起動!復旦 NLP チームが 86 ページのレビューを発表: インテリジェント社会はすぐそこ

>>:  正解率が7.8%アップしました!最初のマルチモーダルオープンワールド検出モデルMQ-DetがNeurIPS 2023に掲載されました

ブログ    
ブログ    
ブログ    

推薦する

ディープラーニング入門: オートエンコーダから変分オートエンコーダまで

オートエンコーダ(AE)は、半教師あり学習や教師なし学習で使用される人工ニューラルネットワーク(AN...

...

個人信用リスク評価モデルにおける新しいビッグデータアルゴリズムの使用の有効性の評価

1980 年代に、FICO はロジスティック回帰アルゴリズムに基づく FICO クレジット スコアリ...

百人一首の戦いはかつてないレベルに到達!

執筆者 | 王 瑞平校正 | Yun Zhao最近また「100均戦争」が始まってます…一輪の花が春を...

...

2020 年の人工知能に関するトップ 10 の予測

[[318614]] [51CTO.com クイック翻訳] 2019年、世界中の意思決定者の53%が...

Huaweiの「ブラックテクノロジー」がついに公開。サイバーバース以外にも重要なニュースがある

8月11日はHuawei Developer Conferenceの3日目であり、カンファレンスの議...

人工知能翻訳は、障害なく外国人と恋に落ちるのに役立ちます

AI 音声翻訳の分野では、ノイズは対処しなければならない主要な課題の 1 つです。この装置は研究室や...

Facebookは再生可能エネルギー貯蔵を改善するために人工知能を活用する

Facebookとカーネギーメロン大学は、AIを使って新たな「電気触媒」を見つけようとしていると発表...

C# データ構造とアルゴリズムのシーケンス テーブルの簡単な分析

C# データ構造とアルゴリズムのシーケンス テーブルとは何ですか?まず、C# のデータ構造とアルゴリ...

人工知能と新しい小売業が出会うと、どのような火花が散るでしょうか?

過去1年間、人間と機械の戦いは続き、人工知能への注目は最高潮に達し、あらゆる分野で人工知能が見られる...

AIのダークサイドを暴く:人工知能は人間に取って代わるが、機械をどのように学習するかは分からない

[[189044]]昨年、自動運転車がニュージャージー州モンマス郡に侵入した。チップメーカーのNvi...

2つのセッションが終了しました!自動運転に関する15の提案

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Stack Overflow が ChatGPT に対抗し、VS Code と連携する独自開発の生成 AI ツールをリリース

数日前、Stack Overflow コミュニティのトラフィックが大幅に減少したというニュースがあり...

機械学習を活用して人事部門の時間を節約する方法

導入履歴書データベースに「ソフトウェア エンジニア」という名前の履歴書が 10,000 件あるとしま...