清華大学などは、シンボリックメモリと組み合わせて、大規模モデルの複雑な推論能力を向上させるChatDBを提案した。

清華大学などは、シンボリックメモリと組み合わせて、大規模モデルの複雑な推論能力を向上させるChatDBを提案した。

ChatGPT、GPT-4、PaLM、LLaMAなどの大規模言語モデルの普及に伴い、大規模言語モデルを長いコンテキスト情報(最大処理長を超える)のシナリオにうまく対応させ、関連する履歴情報を複雑な推論に使用する方法が、注目の研究課題となっています。現在主流のアプローチは、大規模言語モデルにメモリ モジュールを追加し、必要に応じてメモリ モジュールから関連する履歴情報を抽出して、大規模言語モデルを支援することです。

最近、清華大学と北京人工知能研究院の研究者らが新しいタイプの記号記憶モジュールを提案した。彼らは現代のコンピュータ アーキテクチャからインスピレーションを得て、シンボリック メモリ モジュールを活用して大規模な言語モデルを強化しています。このシンボリック メモリ モジュールは、シンボリック操作を使用してメモリ モジュール内の情報を正確に制御できます。このようなシンボリック メモリ フレームワークは、大規模な言語モデル (ChatGPT など) とChatDBと呼ばれるデータベースで構成されます。大規模言語モデルは、メモリ モジュールの読み取りおよび書き込み操作を制御する役割を担います。 ChatDB では、大規模言語モデルが SQL 命令を生成してデータベースを操作し、メモリ モジュール内の履歴情報を正確に追加、削除、変更、照会し、必要に応じて大規模言語モデルに情報を提供して、ユーザー入力に応答できるようにします。この研究により、大規模言語モデルは、各種管理・分析システムなど、履歴情報の長期的かつ正確な記録、処理、分析を必要とするシナリオで有能になることができます。将来的には、管理者に代わる大規模言語モデルが正確な履歴データに基づいて直接分析や判断を行うことも期待されています。

関連する論文は、「ChatDB: Augmenting LLMs with Databases as Their Symbolic Memory」であり、コードはオープンソースになっています。


  • 論文アドレス: https://arxiv.org/abs/2306.03901
  • プロジェクトのホームページ: https://chatdatabase.github.io
  • プロジェクトコード: https://github.com/huchenxucs/ChatDB

Twitter 上の著名な機械学習および自然言語処理の研究者もこの研究を宣伝しました。

関連研究との比較

以前のメモリ モジュールは、主にプロンプ​​ト ベース メモリとマトリックス ベース メモリの 2 つのカテゴリに分けられていました。プロンプトベースのメモリは、以前の履歴テキストと対応するテキストのベクトル埋め込みを保存し、必要に応じてベクトル埋め込み間の類似性を使用して関連する履歴情報を見つけ、それを大規模言語モデルの入力としてプロンプトに組み込みます。関連する研究には、Auto-GPT や Generative Agents などがあります。マトリックスベースのメモリは、追加のメモリ トークンまたはメモリ マトリックスを使用して履歴情報を記録します。関連する作業には、Recurrent Memory Transformer などがあります。これらのメモリ モジュールの以前の設計では、テキストのベクトル埋め込み間の類似性に依存するか、履歴情報をニューラル ネットワークの重みに暗黙的に保存していました。どちらもニューラル操作を伴うため、メモリ モジュール内の履歴情報をシンボリック操作ほど正確に操作することはできませんでした。

主な問題は 2 つあります。(1) 履歴情報を構造化された形式で保存していないこと、(2) メモリ モジュールに保存された情報に対して不正確な方法で操作していることです。ベクトル類似性計算に依存しているため、不正確である可能性があり、長期間にわたって、または複数ステップの推論を実行するときにエラーが蓄積される可能性があります。

ChatDB は、ニューラル シンボリック マシンなどのニューロ シンボリック AI における過去の研究成果を活用し、SQL 命令をサポートするデータベースをシンボリック メモリ モジュールとして使用して、履歴情報に対する抽象的、スケーラブル、かつ正確な操作をサポートします。これらは、シンボリック メモリ モジュールを導入することによってもたらされる利点です。シンボリック メモリ モジュールは、以前のメモリ モジュールと同時に使用して、相互に補完することもできます。

大規模言語モデルとデータベースを組み合わせた以前の研究 (DB-GPT や ChatExcel など) にも、大規模言語モデルを使用して SQL または Excel の命令を生成するものがありましたが、ChatDB はそれらとは根本的に異なります。 DB-GPT と ChatExcel は、大規模な言語モデルを使用して自然言語から SQL または Excel 命令への変換を解決することに重点を置いており、クエリの問題を解決するために使用され、データ ソース自体が提供されます。 ChatDB はデータベースをシンボリック メモリ モジュールとして使用します。これにはクエリだけでなく、データベースの追加、削除、変更、クエリなどのすべての操作が含まれます。データベース全体がゼロから作成され、大規模な言語モデルの履歴情報が継続的に記録および更新されます。さらに、ChatDB のデータベース、つまりシンボリック メモリ モジュールは、大規模言語モデルと密接に関連し、統合されているため、大規模言語モデルが複雑なマルチステップ推論を実行するのに役立ちます。

大規模言語モデル用のツールを使用するという観点から、以前の研究である Toolformer や Langchain と同様に、ChatDB はシンボリック メモリ モジュール (つまり、データベース) をツールとして使用します。その利点は、多段階の推論に正確な履歴データを使用する必要がある問題の場合、大規模な言語モデルで履歴データをより正確に保存して使用し、データベースを使用して推論の中間結果を保存して再利用できるため、より良い結果が得られることです。

意義

この研究は、大規模言語モデル (LLM) の分野に次のような貢献をします。

  • まず、データベースをシンボリックメモリモジュールとして使用して LLM を強化するフレームワークであるChatDBを提案します。これにより、履歴データを構造化された方法で正確に保存できるようになり、SQL ステートメントを使用した抽象的、スケーラブル、かつ正確なデータ操作がサポートされます。
  • 次に、ユーザー入力を複数ステップの中間メモリ操作に変換することで、メモリモジュール内の履歴情報に対する複雑な操作を実現するChain-of-Memory (CoM)方式を提案します。これにより、ChatDB のパフォーマンスが向上し、複数のテーブルを含む複雑なデータベース操作を処理できるようになり、精度と安定性が向上します。
  • 最後に、シンボリックメモリモジュールとLLMを組み合わせることで、エラーの蓄積を回避し中間結果を便利に保存できるため、マルチホップ推論機能が向上し、合成データセットでのChatDBはChatGPTよりも大幅に優れたものになります。

方法

ChatDB フレームワークは、図 2 に示すように、入力処理、メモリ チェーン、応答サマリーという 3 つの主要な段階で構成されます。

1 入力処理: ユーザー入力の場合、メモリ モジュールが関与しない場合は応答が直接生成されます。データベースのクエリや更新など、メモリ モジュールが必要な場合は、言語モデルがメモリ モジュールと対話する一連の SQL ステートメントを生成します。

2 メモリ チェーン: 一連のメモリ操作を実行して、シンボリック メモリ モジュールと対話します。 ChatDB は、挿入、更新、選択、削除などの操作を含む、以前に生成された一連の SQL ステートメントに従って、シンボリック メモリ モジュールを順番に操作します。外部データベースは対応する SQL ステートメントを実行し、データベースを更新して結果を返します。各記憶操作を実行する前に、ChatDB は前の SQL ステートメントの結果に基づいて現在の記憶操作を更新するかどうかを決定することに注意してください。 ChatDB はこのプロセスに従って、すべての記憶操作が完了するまで各記憶操作を実行します。

3 要約応答: 言語モデルは、データベースとの対話の結果を合成し、ユーザーの入力に対して要約応答を行います。

その中で、Chain-of-Memory (CoM) は、シンボリックメモリモジュールをより効率的に操作し、LLM の推論能力をさらに強化するための新しく提案された方法です。メモリ チェーン方式は、ユーザー入力を一連の中間メモリ操作ステップに変換し、複数のメモリ操作ステップで複雑な問題を解決します。各中間ステップには 1 つ以上の SQL ステートメントが含まれるため、問題解決の複雑さが大幅に軽減されます。

実験と結果

実験のセットアップ: ChatDB のシンボリック メモリ モジュールとしてデータベースを使用して大規模言語モデルを強化することの有効性を検証し、他のモデルと定量的に比較するために、果物店の運営と管理をシミュレートする合成データセットを構築しました。このデータは「Fruit Store Dataset」という名前で、時系列順に生成された 70 件の店舗レコードが含まれており、トークンの合計数は約 3.3k です (ChatGPT 4096 の最大コンテキスト ウィンドウ長よりも小さい)。これらのレコードには、果物店での一般的な 4 つの操作 (購入、販売、価格調整、返品) が含まれています。モデルのパフォーマンスを評価するために、著者らは販売記録に関する 50 の質問を収集し、これらの質問に対する標準的な回答に注釈を付けました。これらの問題は主に店舗データの分析と管理に関係します。複数の推論を必要とする難しい問題から、履歴データから情報を取得するだけの簡単な問題まで、難易度はさまざまです。簡単な質問が 15 問、難しい質問が 35 問含まれています。

モデル比較: ChatDB モデルの LLM モジュールは ChatGPT (GPT-3.5 Turbo) を使用し、温度パラメータを 0 に設定し、MySQL データベースを外部シンボリック メモリ モジュールとして使用します。比較のためのベースライン モデルは ChatGPT (GPT-3.5 Turbo) で、最大コンテキスト長は 4096、温度パラメーターは 0 に設定されています。

指標結果: 著者らは果物店の質問応答データセットで実験を実施しました。ChatGPT と比較して、ChatDB はこれらの質問に答える際に大きな利点を示しました。

表1: 果物店データセットにおける質問の正答率

著者は、現在の実験は単純な合成データセットでのみ実施されており、その後は ChatDB のアプリケーション価値を拡大するために、実際のニーズに近いより複雑なシナリオで実施される予定であると述べました。

デモ

以下は、大規模な言語モデルを店長として使用して果物店を経営する例です。

店舗補充 

顧客が商品を購入する


顧客返品 

店舗履歴を分析

ChatDB のインタラクションの例:

果物店データセット内の 4 つの一般的な操作に対する ChatDB の応答:

ChatDB と ChatGPT が回答した質問の例:

3 つのケースすべてにおいて、ChatGPT はどの質問にも正しく回答できませんでしたが、ChatDB はすべての質問に正しく回答しました。

チームについて

この論文は、清華大学のMARSラボと北京能力研究所から発表されたものです。著者は清華大学博士課程の学生であるHu Chenxu、Du Chenzhuang、Luo Simianで、指導教員はFu Jie、Zhao Xing、Zhao Junboです。

清華大学MARSラボは、清華大学学際情報科学学院傘下の人工知能研究所であり、趙星教授によって設立され、指揮されています。私たちはさまざまな探索的 AI 問題の解決に取り組んでおり、常に新たな課題を探しています。私たちは現在、機械が人間のように複数の感覚入力を通じて学習、推論、対話できるようにする方法に特に興味を持っています。私たちの研究は、(1)マルチメディアコンピューティング、(2)自動運転、(3)ロボット工学など、多くの基本的なAIの問題とその応用をカバーしています。

詳細については、クリックして原文を読み、プロジェクトのホームページをご覧ください。

<<:  すべてがUniSimに: 統合自動運転シミュレーションプラットフォーム

>>:  650億のパラメータ、すべてのパラメータを8つのGPUで微調整可能:Qiu Xipengのチームは大規模モデルの閾値を下げました

ブログ    
ブログ    

推薦する

...

2023 年の ICML カンファレンスが開催されます! Google DeepMindの最新研究を簡単に見てみよう

2023 年の国際機械学習会議 (ICML) はハワイのホノルルで開催されます。写真ICML は、国...

人工知能の役割がクローズアップ!ロボットが増えると雇用に影響が出るでしょうか?

短期的には、人工知能が雇用全体に与える影響は比較的軽微であり、構造的影響が量的影響を上回っている。し...

...

AI が電子商取引におけるウェブサイト アクセシビリティ訴訟のリスクを最小限に抑える方法

進化する人工知能により、電子商取引分野におけるウェブサイトのアクセシビリティ訴訟のリスクを最小限に抑...

AIは大学入試で高得点のエッセイを書けるようになったが、小説を書くにはまだ遠い

イベントレビュー大学入試中国語テストが終了してすぐに、大学入試作エッセイのテーマが話題になりました。...

ChatGPTでPPTを書く別の方法

以前、GPT + mindshow 自動 PPT の操作プロセスを紹介しました。主な手順は、まず G...

...

額をタップして入力できる。Googleエンジニアの「帽子型キーボード」は数え切れないほどのファンを魅了。自分で作ることもできる

キーボードと帽子を組み合わせたらどうなるでしょうか?冗談はさておき、Google 日本支社のエンジニ...

「脳制御+AI」で人は「本能」で運転できるようになる

「左に曲がれ、左に曲がれ、左に曲がれと言っただろう!」「ステップ!ステップ!ブレーキを踏め!」「手で...

IDC: 高速サーバー市場は2023年上半期に31億ドルに達し、GPUサーバーが依然として主流となる

10月9日、IDCコンサルティングの公式WeChatアカウントによると、IDCは本日「中国半期加速コ...

...

...

自己強化型機械学習プロジェクト 10 選

機械学習プロジェクトは大きな発展の可能性を秘めています。最近、韓国の人気ドラマでもこの用語が使用され...