LLM にとってベクター データベースが重要なのはなぜですか?

LLM にとってベクター データベースが重要なのはなぜですか?

翻訳者 |ブガッティ

レビュー | Chonglou

Twitter LinkedIn 、またはニュースフィードのタイムラインをスクロールするチャットボット、 LLM GPTに関する言及を目にすることがあります毎週新しいLLMがリリースされるため多くの人がLLMについて話しています

現在、私たちはAI 革命の真っ只中にあり、多くの新しいアプリケーションがベクトル埋め込みに依存しています。ベクトル データベースについて、そしてそれがLLMにとってなぜ重要であるかについてさらに学びましょう

ベクターデータベースの定義

まずベクトル埋め込みを定義しましょベクトル埋め込みは意味情報を伝達するデータ表現であり、AI システムがデータをよりよく理解し、長期記憶を可能にするのに役立ちます。何か新しいことを学ぶ場合と同様に、最も重要なのは主題を理解して覚えることです

LLMなどのAI モデルによって生成された埋め込みには多数の機能が含まれており、その表現は管理不能になります。埋め込みはデータのさまざまな次元を表し、 AIモデルがさまざまな関係、パターン、隠れた構造を理解するのに役立ちます。

従来のスカラーベースのデータベースを使用したベクトル埋め込みは、データの規模と複雑さを処理または維持できないため、課題があります。ベクトル埋め込みの複雑さを考えると特殊なデータベースが必要になることは想像に難くありませここベクター データベースが役に立ちます

ベクターデータベースは、ベクター埋め込み独自の構造に最適化されたストレージとクエリ機能を提供します値を比較し、相互の類似点を見つけることで、簡単な検索、高いパフォーマンス、スケーラビリティおよびデータ取得を実現します。

それは素晴らしいと思いませんかベクトル埋め込みの複雑な構造を処理できる方法がありますしかし、ベクターデータベースの実装は困難です。

つい最近まで、ベクター データベースは、それを開発するだけでなく管理する能力も備えたテクノロジー大手企業によってのみ使用されていました。ベクター データベースは高価なので、高いパフォーマンスを実現するには、適切に調整されていることを確認することが重要です

ベクターデータベースはどのように機能しますか?

ベクトル埋め込みベクトルデータベースについてある程度理解できたので、それがどのように機能するかを見てみましょう

ChatGPTのような LLM を処理する簡単な例から始めましょうモデルには大量のデータと大量のコンテンツが含まれており、 ChatGPTアプリケーションが実現します。

これらの手順を見てみましょう

1. ユーザー、アプリケーションクエリを入力します

2.次に、クエリが埋め込みモデルに挿入され、インデックスを作成する内容に基づいてベクトル埋め込みが作成されます。

3.ベクトル埋め込みベクトルデータベース移動されます

4.ベクター データベースは出力を生成しクエリ結果としてユーザーに返します。

ユーザーがクエリを継続すると、同じ埋め込みモデルを経由して埋め込みが作成され、そのデータベース内の同様のベクトル埋め込みがクエリされます。ベクトル埋め込み間の類似性は、埋め込みが作成された元のコンテンツに基づいています。

ベクターデータベースでどのように機能するかについて詳しく知りたいですか?詳しくはこちらをご覧ください

従来のデータベースでは、文字列数値などが行と列に格納されます。従来のデータベースからクエリを実行する場合、クエリに一致する行をクエリします。ただし、ベクトル データベースはたとえば文字列ではなく、ベクトルを扱いますベクターデータベースでは類似度メトリック使用されておりクエリに最も類似したベクターを見つけるのに役立ちます

ベクトルデータベースは近似最近傍(ANN )検索を容易にするさまざまなアルゴリズムで構成されています。これはハッシュ、グラフベースの検索、または量子化を介して行われ、これらはパイプラインに組み立てられ、照会ベクトルの近傍を取得します

結果はクエリにどれだけ近いかによって異なるため、考慮される主な要素は精度と速度です。クエリ出力が遅い場合、結果はより正確になります

ベクター データベース クエリは主に3 つの段階を経ます

1.索引

上記の例で述べたように、ベクトル埋め込みがベクトルデータベース格納されると、さまざまなアルゴリズムを使用してベクトル埋め込みをデータ構造にマッピングし、検索を高速化します。

2.クエリ

検索が完了するとベクターデータベースはクエリされたベクターをインデックス付きベクター比較し類似度メトリックを適用して最も近い近傍を検索します。

3. 後処理

使用するベクター データベースに応じて、ベクター データベースは最終的な最近傍を後処理して、クエリの最終出力を生成しますさらに将来の参照用に最も近いものを再ランク付けすることも可能です

結論

人工知能が進歩し、毎週新しいシステムがリリースされるにつれて、ベクトルデータベースの開発が重要な役割を果たしますベクター データベースにより、企業は正確な類似性検索をより効率的に実行できるようになり、ユーザーに優れた高速な出力を提供できるようになります。

次回ChatGPT または Google Bard にクエリを入力するときは、クエリの結果出力するため実行されるプロセスについて考えてみてください

元のタイトル:ベクターデータベースとは何か、そしてなぜ LLM にとって重要なのか?著者: Nisha Arya


<<:  AIとWeb3の出会い: 2023年の技術革命

>>:  中国初の風力タービン出力曲線AIモデルが発表され、業界のギャップを埋める

ブログ    
ブログ    

推薦する

...

コードスイッチングに7億5000万ドル? Facebook TransCoder AI は 1 つで十分です。

コードの移行と言語の変換は困難で費用のかかる作業です。オーストラリア連邦銀行は、プラットフォームを ...

Google AI、眼球スキャンから心臓病リスクを予測可能

グーグルと、同じくアルファベットグループの健康関連子会社であるベリリー・ライフ・サイエンシズが共同で...

...

...

イノベーションに関する対話 - 51CTO 初の開発者コンテストが始まりました!

/* 世界を変えるために生きるここでは、あらゆる作品が市場に参入するための種となる可能性があります...

20 分で回路基板の組み立て方を学びましょう!オープンソースのSERLフレームワークは、精密制御において100%の成功率を誇り、人間の3倍の速さです。

近年、四足歩行、把持、器用な操作など、ロボットの強化学習技術の分野では大きな進歩が遂げられていますが...

人工知能技術の応用方向

[[395149]]人工知能を学ぶことで何ができるのでしょうか?詳しくご紹介します。 1. 製造業ス...

二足歩行ロボットは撮影以外にも応用シーンが多すぎて問題になっている

揚子江は東に流れ、その波はすべての英雄たちを押し流す。ジャッキー・チェン、ジェット・リー、ジャン=ク...

...

デジタルツインブレイン:生物と人工知能の架け橋

人間の脳の構造にヒントを得た神経科学と AI 技術の最近の一連の進歩により、知性の謎を解き明かす新た...

...

...

GPT-4Vはキーボードとマウスを使ってインターネットを閲覧することを学習し、人間は投稿したりゲームをしたりしているのを観察した。

ついに、GPT-4V がコンピューターを自動的に操作することを学習する日が来ました。マウスとキーボー...