OpenAIに勝る完璧な埋め込みモデルであるNomic Embedが、重み、データ、コードがすべてオープンソースで利用可能になりました。

1週間前、OpenAIはユーザーに特典を配布しました。GPT-4が怠惰になる問題を修正した後、より小型で効率的なtext-embedding-3-small埋め込みモデルを含む5つの新しいモデルもリリースしました。

埋め込みは、自然言語やコードなどのコンテンツ内の概念を表す数字のシーケンスであることがわかっています。埋め込みにより、機械学習モデルやその他のアルゴリズムがコンテンツ間のつながりを理解し、クラスタリングや検索などのタスクを実行しやすくなります。 NLP の分野では埋め込みが非常に重要であることがわかります。

ただし、OpenAI の埋め込みモデルは誰でも無料で使用できるわけではありません。たとえば、text-embedding-3-small の価格は 1,000 トークンあたり 0.00002 ドルです。

現在、text-embedding-3-small よりも優れた埋め込みモデルがあり、それらは無料です。

AI スタートアップ企業 Nomic AI は、Nomic Embed のリリースを発表しました。これは、オープンソース、オープンデータ、オープンウェイト、オープントレーニングコード、完全に再現可能で監査可能な埋め込みモデルであり、コンテキスト長は 8192 で、短いコンテキストと長いコンテキストの両方のベンチマークで OpenAI text-embedding-3-small および text-embedding-ada-002 を上回りました。

テキスト埋め込みは、LLM およびセマンティック検索のための検索拡張生成 (RAG) を提供する、最新の NLP アプリケーションの不可欠な部分です。この技術は、文章または文書に関する意味情報を低次元ベクトルにエンコードし、データの視覚化、分類、情報検索のためのクラスタリングなどの下流アプリケーションで使用できるようにします。現在、最も人気のある長いコンテキストのテキスト埋め込みモデルは、コンテキスト長 8192 をサポートする OpenAI の text-embedding-ada-002 です。残念ながら、Ada はクローズドソースであり、トレーニングデータは監査できません。

さらに、最高のパフォーマンスを誇るオープンソースの長コンテキストテキスト埋め込みモデル (E5-Mistral や jina-embeddings-v2-base-en など) は、モデルのサイズが大きいため汎用には適していないか、OpenAI の同等のモデルよりもパフォーマンスが劣っています。

Nomic-embed のリリースにより、これが変わります。このモデルには 1 億 3,700 万個のパラメータしかなく、導入が非常に簡単で、5 日間でトレーニングできます。

論文アドレス: https://static.nomic.ai/reports/2024_Nomic_Embed_Text_Technical_Report.pdf

論文タイトル: Nomic Embed: 再現可能なロングコンテキストテキスト埋め込みのトレーニング

プロジェクトアドレス: https://github.com/nomic-ai/contrastors

nomic-embedの構築方法

既存のテキストエンコーダーの主な欠点の 1 つは、シーケンスの長さが 512 トークンに制限されていることです。より長いシーケンスのモデルをトレーニングするには、まず BERT を調整して長いシーケンス長に適応できるようにします。この研究のターゲットシーケンス長は 8192 です。

コンテキスト長 2048 で BERT をトレーニングする

この研究では、nomic-embed をトレーニングするために、多段階の対照学習パイプラインに従います。まず、この研究では BERT を初期化しました。bert-base は最大 512 トークンのコンテキスト長しか処理できないため、この研究では 2048 トークンのコンテキスト長で独自の BERT (nomic-bert-2048) をトレーニングすることにしました。

研究チームは、MosaicBERT に触発されて、BERT のトレーニングプロセスに次のような変更を加えました。

回転位置埋め込みを使用してコンテキストの長さの外挿を可能にします。
モデルのパフォーマンスを向上させることが示されているため、SwiGLU アクティベーションを使用します。
ドロップアウトを0に設定します。

次のトレーニング最適化が実行されました。

Deepspeed と FlashAttention を使用したトレーニング。
BF16 の精度でトレーニング済み。
語彙のサイズを 64 の倍数に増やします。
トレーニングのバッチサイズは 4096 です。
マスク言語モデリング中、マスキング率は 15% ではなく 30% になります。
次の文の予測目標は使用されません。

トレーニング中、この研究ではすべてのステージを最大シーケンス長 2048 でトレーニングし、推論中に動的 NTK 補間を使用してシーケンス長を 8192 に拡張しました。

実験

この研究では、標準の GLUE ベンチマークで nomic-bert-2048 の品質を評価し、他の BERT モデルと同等のパフォーマンスを発揮する一方で、コンテキストの長さが大幅に長いという利点があることがわかりました。

nomic-embedの比較トレーニング

この研究では、nomic-bert-2048 を使用して nomic-embed のトレーニングを初期化しました。比較データセットは約 2 億 3,500 万のテキストペアで構成されており、その品質は収集プロセス中に Nomic Atlas を使用して徹底的に検証されました。

MTEB ベンチマークでは、nomic-embed は text-embedding-ada-002 および jina-embeddings-v2-base-en よりも優れています。

ただし、MTEB では長いコンテキストのタスクを評価することはできません。したがって、この研究では、最近リリースされた LoCo ベンチマークと Jina Long Context ベンチマークで nomic-embed を評価します。

LoCo ベンチマークについては、この研究では、パラメータカテゴリ別、および評価が教師あり設定と教師なし設定のどちらで実行されるかによって個別に評価します。

下の表に示すように、Nomic Embed は 1 億パラメータの教師なしモデルの中で最もパフォーマンスに優れています。特に、Nomic Embed は、7B パラメータクラスで最高のパフォーマンスを発揮するモデルや、LoCo ベンチマーク専用の教師あり設定でトレーニングされたモデルに匹敵します。

Jina Long Context ベンチマークでは、Nomic Embed は jina-embeddings-v2-base-en よりも全体的に優れていますが、このベンチマークでは Nomic Embed は OpenAI ada-002 や text-embedding-3-small よりも優れていません。

全体的に、Nomic Embed は 2/3 のベンチマークで OpenAI Ada-002 および text-embedding-3-small を上回りました。

調査によると、Nomic Embed を使用するための最良の選択肢は Nomic Embedding API であり、API を取得する方法は次のとおりです。

最後に、データアクセス: 完全なデータにアクセスするために、調査ではユーザーに Cloudflare R2 (AWS S3 に似たオブジェクトストレージサービス) アクセスキーを提供しました。アクセスするには、ユーザーはまず Nomic Atlas アカウントを作成し、contrastors リポジトリの指示に従う必要があります。

Contrastors アドレス: https://github.com/nomic-ai/contrastors?tab=readme-ov-file#data-access

<<: 「小さいけれど優秀」な大規模言語モデル Zephyr 7B の詳細な説明

>>: グラフ分野における初のユニバーサルフレームワークが登場しました。 ICLR'24 Spotlightに選ばれ、あらゆるデータセットと分類問題を解決できる