大型モデルの欠点を補うことに特化したRAGでは、どのような新たな進歩があったのでしょうか？このレビューでは明らかに

大規模言語モデル (LLM) は私たちの生活や仕事の一部となり、その驚くべき汎用性とインテリジェンスにより情報とのやり取りの方法を変えています。

しかし、彼らの能力は素晴らしいものの、無敵というわけではありません。これらのモデルは、誤解を招く「幻覚」を生み出したり、古い情報に依存したり、特定の知識の処理が非効率的だったり、専門分野に対する深い洞察が欠けていたり、推論能力も不十分であったりします。

実際のアプリケーションでは、最新の開発状況を反映するためにデータを常に更新する必要があり、コストを管理してデータのプライバシーを保護するために、生成されたコンテンツは透明性と追跡可能性を備えている必要があります。したがって、これらの「ブラックボックス」モデルに頼るだけでは不十分であり、これらの複雑な要件を満たすには、より洗練されたソリューションが必要です。

このような背景から、検索拡張生成（RAG）テクノロジーが誕生し、AI時代の大きなトレンドとなりました。

RAG は、言語モデルが回答を生成する前に広範なドキュメントデータベースから関連情報を取得し、この情報を使用して生成プロセスをガイドすることで、コンテンツの精度と関連性を大幅に向上させます。 RAG は幻覚問題を効果的に軽減し、知識の更新速度を向上させ、コンテンツ生成の追跡可能性を強化し、大規模言語モデルを現実世界のアプリケーションでより実用的かつ信頼性の高いものにします。 RAG の出現は、間違いなく人工知能研究の分野における最もエキサイティングな進歩の 1 つです。

このレビューでは、RAG の包括的な理解を提供し、その中核となるパラダイム、主要なテクノロジー、将来の傾向を深く探究し、読者と実践者に大規模モデルと RAG の詳細かつ体系的な理解を提供するとともに、検索強化テクノロジーの最新の進歩と主要な課題について詳しく説明します。

原著論文: https://arxiv.org/abs/2312.10997
公式リポジトリ: https://github.com/Tongji-KGLLM/RAG-Survey

RAGとは何ですか?

図1: QA問題におけるRAG技術の例

典型的な RAG のケースを図に示します。 ChatGPTに、OpenAIのCEOであるサム・アトルマン氏が突然解雇され、その後わずか数日以内に復職したことについて尋ねてみましょう。 ChatGPTは、事前トレーニングデータの制限と最近の出来事に関する知識の欠如により、回答できないと述べた。 RAG は、外部のナレッジベースから最新のドキュメントの抜粋を取得することで、このギャップを解消します。この場合、クエリに関連するニュース記事のリストを取得します。これらの文章は、元の質問とともにリッチプロンプトに結合され、ChatGPT が情報に基づいた応答を合成できるようになります。

RAGテクノロジーパラダイム開発

RAG のコンセプトは 2020 年に初めて提案され、その後急速な発展を遂げました。 RAG 技術の進化は図に示されており、関連する研究の進歩はいくつかの重要な段階に明確に分けることができます。初期の事前トレーニング段階では、事前トレーニングモデルを通じて追加の知識を注入し、言語モデルの機能を強化する方法に研究の焦点が当てられました。 ChatGPT の登場により、大規模なモデルをディープコンテキスト学習に使用することへの関心が高まり、研究コミュニティにおける RAG テクノロジーの急速な発展が促進されました。 LLM の可能性がさらに探求され、モデルの制御性を向上させ、進化するニーズに対応することを目指して、RAG の研究は徐々に推論機能の強化に焦点を当て、微調整プロセスのさまざまな改善も探求してきました。特に GPT-4 のリリースにより、RAG テクノロジーは大きな変革を遂げました。研究の焦点は、RAG と微調整戦略を融合する新しい方法に移り始め、事前トレーニング方法の最適化に引き続き重点を置きました。

図2 RAG技術開発の技術ツリー

RAG の技術開発の過程を、技術パラダイムの観点から次の段階にまとめます。

ナイーブRAG

前のケースは、Naive RAG とも呼ばれる古典的な RAG プロセスを示しています。主に次の 3 つの基本的な手順が含まれます。

1. インデックス作成 - ドキュメントライブラリを短いチャンクに分割し、エンコーダーを通じてベクトルインデックスを構築します。

2. 検索 - 質問とチャンクの類似性に基づいて、関連するドキュメントのフラグメントを取得します。

3. 生成 — 取得したコンテキストに基づいて質問に対する回答を生成します。

高度なRAG

ナイーブ RAG には、検索品質、応答生成品質、および拡張プロセスに関していくつかの課題があります。その後、データのインデックス作成、事前取得、事後取得の追加処理を備えた高度な RAG パラダイムが提案されました。より洗練されたデータクリーニング、ドキュメント構造設計、メタデータの追加により、テキストの一貫性、正確性、検索効率が向上します。検索前の段階では、質問の書き換え、ルーティング、拡張などの方法を使用して、質問とドキュメントチャンク間の意味上の違いを調整できます。検索後の段階では、取得したドキュメントライブラリを再並べ替えることで、「Lost in the Middle」現象を回避できます。または、コンテキストフィルタリングと圧縮によってウィンドウの長さを短縮します。

モジュラーRAG

RAG 技術のさらなる発展と進化により、新しい技術が従来の単純な RAG 検索生成フレームワークを突破しました。これに基づいて、モジュラー RAG の概念を提案します。構造がより自由で柔軟になり、クエリ検索エンジンや複数の回答の統合など、より具体的な機能モジュールが導入されます。技術的には、検索を微調整、強化学習、その他のテクノロジーと統合します。 RAG モジュールもプロセス内で設計および配置され、さまざまな RAG モードが実現されます。しかし、モジュラー RAG は突然現れたわけではなく、3 つのパラダイムの間には継承と発展の関係があります。 Advanced RAG は Modular RAG の特殊な形式であり、Naive RAG は Advanced RAG の特殊な形式です。

図3 RAGパラダイムの比較

検索強化を実行するにはどうすればいいですか?

RAG システムは、主に「検索」、「拡張」、「生成」という 3 つのコア部分で構成されています。これは RAG の最初の 3 文字にも対応します。優れた RAG システムを構築するには、拡張部分が中核となり、次の 3 つの重要な質問を考慮する必要があります。何を取得するのか?いつ検索するのですか?検索コンテンツの使い方は？

検索強化段階: 検索強化は、事前トレーニング、微調整、推論の 3 つの段階で実行できます。これにより、外部知識のパラメータ化の程度と、それに応じて必要なコンピューティングリソースが決まります。

拡張データソースの取得: 拡張には、テキストの段落、フレーズ、個々の単語などの非構造化テキストデータを含む、さまざまな形式のデータを使用できます。さらに、インデックス、トリプル、サブグラフを含むドキュメントなどの構造化データも活用できます。もう 1 つのアプローチは、外部の情報ソースに依存せず、LLM の固有の機能を最大限に活用して、モデル自体によって生成されたコンテンツから取得することです。

検索強化のプロセス: 初期の検索は 1 回限りのプロセスでした。RAG の開発中に、反復検索、再帰検索、および LLM が検索時間を決定できるようにする適応検索方法が徐々に登場しました。

図4 RAGコアコンポーネントの分類システム

RAG と微調整のどちらを選択すればよいですか?

RAG に加えて、LLM の主な最適化方法には、プロンプトエンジニアリングと微調整 (FT) も含まれます。それらはすべて独自の特徴を持っています。外部知識への依存度とモデル調整要件に応じて、それぞれに適したシナリオが異なります。

RAG は、特定のクエリに適したカスタマイズされた情報検索の教科書をモデルに提供するようなものです。一方、FT は、時間をかけて知識を内面化していく学生のようなもので、特定の構造、スタイル、形式を模倣するのに適しています。 FT は、基礎となるモデルの知識を強化し、出力を調整し、複雑な指示を教えることで、モデルのパフォーマンスと効率を向上させることができます。ただし、新しい知識を取り入れたり、新しいユースケースを迅速に反復したりするのは得意ではありません。 RAG と FT は相互に排他的ではなく、補完的であり、組み合わせて使用すると最適なパフォーマンスが得られる場合があります。

図5 RAGと他の大規模モデルの微調整手法の比較

RAGをどのように評価しますか?

RAG の評価方法は多様であり、主にコンテキスト関連性、回答忠実度、回答関連性の3 つの品質スコアが含まれます。さらに、評価には、ノイズ堅牢性、否認能力、情報統合、反事実堅牢性という 4 つの主要な機能が含まれます。これらの評価次元は、従来の定量的指標と RAG 特性の専門的な評価基準を組み合わせたものですが、これらの基準はまだ統一されていません。

評価フレームワークとしては、RGBやRECALLなどのベンチマークのほか、RAGAS、ARES、TruLensなどの自動評価ツールがあり、RAGモデルのパフォーマンスを総合的に測定するのに役立ちます。この表は、従来の定量的指標を RAG 評価に適用する方法と、評価対象、次元、指標を含むさまざまな RAG 評価フレームワークの評価内容をまとめたものであり、RAG モデルのパフォーマンスと潜在的な用途をより深く理解するための貴重な情報を提供します。

RAG の今後の発展の見通しはどのようなものですか?

RAG は依然として急速に発展しています。他にさらに研究する価値のある問題は何でしょうか?私たちは3つの側面から期待しています:

1. RAGの垂直最適化

垂直最適化は、RAG が現在直面している課題にさらに取り組むことを目的としています。

次のテキストの長さが長くなります。検索内容が多すぎてウィンドウの制限を超えた場合はどうすればいいですか? LLM のコンテキストウィンドウが制限されなくなった場合、RAG はどのように改善されるでしょうか?

堅牢性。取得したエラーコンテンツにどう対処すればよいですか?取得したコンテンツをフィルタリングして検証するにはどうすればよいですか?モデルの毒とノイズに対する耐性を向上させる方法。

微調整との相乗効果。 RAG と FT の効果を同時に引き出す方法、2 つを調整する方法、それらを連続的、交互に、またはエンドツーエンドで整理する方法は何でしょうか?

スケーリング法則: RAG モデルはスケーリング法則を満たしていますか? RAG は逆スケーリング則現象を経験するでしょうか、あるいはどのようなシナリオでしょうか?

LLM の役割。 LLM は、取得 (取得の代わりに LLM 生成を使用するか、LLM メモリを取得する)、生成、および評価に使用できます。 RAG で LLM の可能性をさらに探求するにはどうすればよいでしょうか?

エンジニアリングの実践。超大規模コーパスの検索遅延を短縮するには？取得したコンテンツがビッグモデルによって漏洩しないようにするにはどうすればよいでしょうか?

2. RAGのマルチモーダル拡張

RAG の進化する技術とアイデアを、画像、音声、ビデオ、コードなどの他のデータ形式に拡張するにはどうすればよいでしょうか?一方では、単一のモダリティのタスクを強化でき、他方では、RAG のアイデアを通じて複数のモダリティを統合できます。

3. RAGエコシステム

RAG の応用は質問応答システムに限定されなくなり、その影響はより多くの分野に拡大しています。現在、推奨システム、情報抽出、レポート生成などのさまざまなタスクが RAG テクノロジの適用から恩恵を受け始めています。同時に、RAG テクノロジースタックも急成長しています。 Langchain や LlamaIndex などの既知のツールに加えて、よりシーンに重点を置いたニーズを満たすカスタマイズされた使用、参入障壁をさらに下げる簡素化された使用、徐々に実稼働環境に向けた機能の特化など、よりターゲットを絞った RAGツールが市場に登場しています。

図6 RAGのエコシステムの概要

詳細については原論文を参照してください。

<<: テキスト注釈が不要で、TF-T2V は大量生産される AI ビデオのコストを削減します。華客、アリババなどが共同で建設

>>: 言語モデルは時間をどのように認識するのでしょうか?時間ベクトルについてさらに詳しく