清華大学などは、シンボリックメモリと組み合わせて、大規模モデルの複雑な推論能力を向上させるChatDBを提案した。

ChatGPT、GPT-4、PaLM、LLaMAなどの大規模言語モデルの普及に伴い、大規模言語モデルを長いコンテキスト情報（最大処理長を超える）のシナリオにうまく対応させ、関連する履歴情報を複雑な推論に使用する方法が、注目の研究課題となっています。現在主流のアプローチは、大規模言語モデルにメモリモジュールを追加し、必要に応じてメモリモジュールから関連する履歴情報を抽出して、大規模言語モデルを支援することです。

最近、清華大学と北京人工知能研究院の研究者らが新しいタイプの記号記憶モジュールを提案した。彼らは現代のコンピュータアーキテクチャからインスピレーションを得て、シンボリックメモリモジュールを活用して大規模な言語モデルを強化しています。このシンボリックメモリモジュールは、シンボリック操作を使用してメモリモジュール内の情報を正確に制御できます。このようなシンボリックメモリフレームワークは、大規模な言語モデル (ChatGPT など) とChatDBと呼ばれるデータベースで構成されます。大規模言語モデルは、メモリモジュールの読み取りおよび書き込み操作を制御する役割を担います。 ChatDB では、大規模言語モデルが SQL 命令を生成してデータベースを操作し、メモリモジュール内の履歴情報を正確に追加、削除、変更、照会し、必要に応じて大規模言語モデルに情報を提供して、ユーザー入力に応答できるようにします。この研究により、大規模言語モデルは、各種管理・分析システムなど、履歴情報の長期的かつ正確な記録、処理、分析を必要とするシナリオで有能になることができます。将来的には、管理者に代わる大規模言語モデルが正確な履歴データに基づいて直接分析や判断を行うことも期待されています。

関連する論文は、「ChatDB: Augmenting LLMs with Databases as Their Symbolic Memory」であり、コードはオープンソースになっています。

論文アドレス: https://arxiv.org/abs/2306.03901
プロジェクトのホームページ: https://chatdatabase.github.io
プロジェクトコード: https://github.com/huchenxucs/ChatDB

Twitter 上の著名な機械学習および自然言語処理の研究者もこの研究を宣伝しました。

意義

この研究は、大規模言語モデル (LLM) の分野に次のような貢献をします。

まず、データベースをシンボリックメモリモジュールとして使用して LLM を強化するフレームワークであるChatDBを提案します。これにより、履歴データを構造化された方法で正確に保存できるようになり、SQL ステートメントを使用した抽象的、スケーラブル、かつ正確なデータ操作がサポートされます。
次に、ユーザー入力を複数ステップの中間メモリ操作に変換することで、メモリモジュール内の履歴情報に対する複雑な操作を実現するChain-of-Memory (CoM)方式を提案します。これにより、ChatDB のパフォーマンスが向上し、複数のテーブルを含む複雑なデータベース操作を処理できるようになり、精度と安定性が向上します。
最後に、シンボリックメモリモジュールとLLMを組み合わせることで、エラーの蓄積を回避し、中間結果を便利に保存できるため、マルチホップ推論機能が向上し、合成データセットでのChatDBはChatGPTよりも大幅に優れたものになります。

方法

ChatDB フレームワークは、図 2 に示すように、入力処理、メモリチェーン、応答サマリーという 3 つの主要な段階で構成されます。

1 入力処理: ユーザー入力の場合、メモリモジュールが関与しない場合は応答が直接生成されます。データベースのクエリや更新など、メモリモジュールが必要な場合は、言語モデルがメモリモジュールと対話する一連の SQL ステートメントを生成します。

2 メモリチェーン: 一連のメモリ操作を実行して、シンボリックメモリモジュールと対話します。 ChatDB は、挿入、更新、選択、削除などの操作を含む、以前に生成された一連の SQL ステートメントに従って、シンボリックメモリモジュールを順番に操作します。外部データベースは対応する SQL ステートメントを実行し、データベースを更新して結果を返します。各記憶操作を実行する前に、ChatDB は前の SQL ステートメントの結果に基づいて現在の記憶操作を更新するかどうかを決定することに注意してください。 ChatDB はこのプロセスに従って、すべての記憶操作が完了するまで各記憶操作を実行します。

3 要約応答: 言語モデルは、データベースとの対話の結果を合成し、ユーザーの入力に対して要約応答を行います。

その中で、Chain-of-Memory (CoM) は、シンボリックメモリモジュールをより効率的に操作し、LLM の推論能力をさらに強化するための新しく提案された方法です。メモリチェーン方式は、ユーザー入力を一連の中間メモリ操作ステップに変換し、複数のメモリ操作ステップで複雑な問題を解決します。各中間ステップには 1 つ以上の SQL ステートメントが含まれるため、問題解決の複雑さが大幅に軽減されます。

実験と結果

実験のセットアップ: ChatDB のシンボリックメモリモジュールとしてデータベースを使用して大規模言語モデルを強化することの有効性を検証し、他のモデルと定量的に比較するために、果物店の運営と管理をシミュレートする合成データセットを構築しました。このデータは「Fruit Store Dataset」という名前で、時系列順に生成された 70 件の店舗レコードが含まれており、トークンの合計数は約 3.3k です (ChatGPT 4096 の最大コンテキストウィンドウ長よりも小さい)。これらのレコードには、果物店での一般的な 4 つの操作 (購入、販売、価格調整、返品) が含まれています。モデルのパフォーマンスを評価するために、著者らは販売記録に関する 50 の質問を収集し、これらの質問に対する標準的な回答に注釈を付けました。これらの問題は主に店舗データの分析と管理に関係します。複数の推論を必要とする難しい問題から、履歴データから情報を取得するだけの簡単な問題まで、難易度はさまざまです。簡単な質問が 15 問、難しい質問が 35 問含まれています。

モデル比較: ChatDB モデルの LLM モジュールは ChatGPT (GPT-3.5 Turbo) を使用し、温度パラメータを 0 に設定し、MySQL データベースを外部シンボリックメモリモジュールとして使用します。比較のためのベースラインモデルは ChatGPT (GPT-3.5 Turbo) で、最大コンテキスト長は 4096、温度パラメーターは 0 に設定されています。

指標結果: 著者らは果物店の質問応答データセットで実験を実施しました。ChatGPT と比較して、ChatDB はこれらの質問に答える際に大きな利点を示しました。

表1: 果物店データセットにおける質問の正答率

著者は、現在の実験は単純な合成データセットでのみ実施されており、その後は ChatDB のアプリケーション価値を拡大するために、実際のニーズに近いより複雑なシナリオで実施される予定であると述べました。

デモ

以下は、大規模な言語モデルを店長として使用して果物店を経営する例です。

店舗補充

顧客が商品を購入する

顧客返品

店舗履歴を分析

ChatDB のインタラクションの例:

果物店データセット内の 4 つの一般的な操作に対する ChatDB の応答:

ChatDB と ChatGPT が回答した質問の例:

3 つのケースすべてにおいて、ChatGPT はどの質問にも正しく回答できませんでしたが、ChatDB はすべての質問に正しく回答しました。

チームについて

この論文は、清華大学のMARSラボと北京能力研究所から発表されたものです。著者は清華大学博士課程の学生であるHu Chenxu、Du Chenzhuang、Luo Simianで、指導教員はFu Jie、Zhao Xing、Zhao Junboです。

清華大学MARSラボは、清華大学学際情報科学学院傘下の人工知能研究所であり、趙星教授によって設立され、指揮されています。私たちはさまざまな探索的 AI 問題の解決に取り組んでおり、常に新たな課題を探しています。私たちは現在、機械が人間のように複数の感覚入力を通じて学習、推論、対話できるようにする方法に特に興味を持っています。私たちの研究は、（1）マルチメディアコンピューティング、（2）自動運転、（3）ロボット工学など、多くの基本的なAIの問題とその応用をカバーしています。

詳細については、クリックして原文を読み、プロジェクトのホームページをご覧ください。

<<: すべてがUniSimに: 統合自動運転シミュレーションプラットフォーム

>>: 650億のパラメータ、すべてのパラメータを8つのGPUで微調整可能：Qiu Xipengのチームは大規模モデルの閾値を下げました