OpenAIに勝る完璧な埋め込みモデルであるNomic Embedが、重み、データ、コードがすべてオープンソースで利用可能になりました。

OpenAIに勝る完璧な埋め込みモデルであるNomic Embedが、重み、データ、コードがすべてオープンソースで利用可能になりました。

1週間前、OpenAIはユーザーに特典を配布しました。GPT-4が怠惰になる問題を修正した後、より小型で効率的なtext-embedding-3-small埋め込みモデルを含む5つの新しいモデルもリリースしました。

埋め込みは、自然言語やコードなどのコンテンツ内の概念を表す数字のシーケンスであることがわかっています。埋め込みにより、機械学習モデルやその他のアルゴリズムがコンテンツ間のつながりを理解し、クラスタリングや検索などのタスクを実行しやすくなります。 NLP の分野では埋め込みが非常に重要であることがわかります。

ただし、OpenAI の埋め込みモデルは誰でも無料で使用できるわけではありません。たとえば、text-embedding-3-small の価格は 1,000 トークンあたり 0.00002 ドルです。

現在、text-embedding-3-small よりも優れた埋め込みモデルがあり、それらは無料です。

AI スタートアップ企業 Nomic AI は、Nomic Embed のリリースを発表しました。これは、オープン ソース、オープン データ、オープン ウェイト、オープン トレーニング コード、完全に再現可能で監査可能な埋め込みモデルであり、コンテキスト長は 8192 で、短いコンテキストと長いコンテキストの両方のベンチマークで OpenAI text-embedding-3-small および text-embedding-ada-002 を上回りました。


テキスト埋め込みは、LLM およびセマンティック検索のための検索拡張生成 (RAG) を提供する、最新の NLP アプリケーションの不可欠な部分です。この技術は、文章または文書に関する意味情報を低次元ベクトルにエンコードし、データの視覚化、分類、情報検索のためのクラスタリングなどの下流アプリケーションで使用できるようにします。現在、最も人気のある長いコンテキストのテキスト埋め込みモデルは、コンテキスト長 8192 をサポートする OpenAI の text-embedding-ada-002 です。残念ながら、Ada はクローズドソースであり、トレーニング データは監査できません。

さらに、最高のパフォーマンスを誇るオープンソースの長コンテキストテキスト埋め込みモデル (E5-Mistral や jina-embeddings-v2-base-en など) は、モデルのサイズが大きいため汎用には適していないか、OpenAI の同等のモデルよりもパフォーマンスが劣っています。

Nomic-embed のリリースにより、これが変わります。このモデルには 1 億 3,700 万個のパラメータしかなく、導入が非常に簡単で、5 日間でトレーニングできます。


論文アドレス: https://static.nomic.ai/reports/2024_Nomic_Embed_Text_Technical_Report.pdf

論文タイトル: Nomic Embed: 再現可能なロングコンテキストテキスト埋め込みのトレーニング

プロジェクトアドレス: https://github.com/nomic-ai/contrastors

nomic-embedの構築方法

既存のテキスト エンコーダーの主な欠点の 1 つは、シーケンスの長さが 512 トークンに制限されていることです。より長いシーケンスのモデルをトレーニングするには、まず BERT を調整して長いシーケンス長に適応できるようにします。この研究のターゲット シーケンス長は 8192 です。

コンテキスト長 2048 で BERT をトレーニングする

この研究では、nomic-embed をトレーニングするために、多段階の対照学習パイプラインに従います。まず、この研究では BERT を初期化しました。bert-base は最大 512 トークンのコンテキスト長しか処理できないため、この研究では 2048 トークンのコンテキスト長で独自の BERT (nomic-bert-2048) をトレーニングすることにしました。

研究チームは、MosaicBERT に触発されて、BERT のトレーニング プロセスに次のような変更を加えました。

  • 回転位置埋め込みを使用してコンテキストの長さの外挿を可能にします。
  • モデルのパフォーマンスを向上させることが示されているため、SwiGLU アクティベーションを使用します。
  • ドロップアウトを0に設定します。

次のトレーニング最適化が実行されました。

  • Deepspeed と FlashAttention を使用したトレーニング。
  • BF16 の精度でトレーニング済み。
  • 語彙のサイズを 64 の倍数に増やします。
  • トレーニングのバッチサイズは 4096 です。
  • マスク言語モデリング中、マスキング率は 15% ではなく 30% になります。
  • 次の文の予測目標は使用されません。

トレーニング中、この研究ではすべてのステージを最大シーケンス長 2048 でトレーニングし、推論中に動的 NTK 補間を使用してシーケンス長を 8192 に拡張しました。

実験

この研究では、標準の GLUE ベンチマークで nomic-bert-2048 の品質を評価し、他の BERT モデルと同等のパフォーマンスを発揮する一方で、コンテキストの長さが大幅に長いという利点があることがわかりました。

nomic-embedの比較トレーニング

この研究では、nomic-bert-2048 を使用して nomic-embed のトレーニングを初期化しました。比較データセットは約 2 億 3,500 万のテキスト ペアで構成されており、その品質は収集プロセス中に Nomic Atlas を使用して徹底的に検証されました。

MTEB ベンチマークでは、nomic-embed は text-embedding-ada-002 および jina-embeddings-v2-base-en よりも優れています。

ただし、MTEB では長いコンテキストのタスクを評価することはできません。したがって、この研究では、最近リリースされた LoCo ベンチマークと Jina Long Context ベンチマークで nomic-embed を評価します。

LoCo ベンチマークについては、この研究では、パラメータ カテゴリ別、および評価が教師あり設定と教師なし設定のどちらで実行されるかによって個別に評価します。

下の表に示すように、Nomic Embed は 1 億パラメータの教師なしモデルの中で最もパフォーマンスに優れています。特に、Nomic Embed は、7B パラメータ クラスで最高のパフォーマンスを発揮するモデルや、LoCo ベンチマーク専用の教師あり設定でトレーニングされたモデルに匹敵します。

Jina Long Context ベンチマークでは、Nomic Embed は jina-embeddings-v2-base-en よりも全体的に優れていますが、このベンチマークでは Nomic Embed は OpenAI ada-002 や text-embedding-3-small よりも優れていません。

全体的に、Nomic Embed は 2/3 のベンチマークで OpenAI Ada-002 および text-embedding-3-small を上回りました。

調査によると、Nomic Embed を使用するための最良の選択肢は Nomic Embedding API であり、API を取得する方法は次のとおりです。


最後に、データ アクセス: 完全なデータにアクセスするために、調査ではユーザーに Cloudflare R2 (AWS S3 に似たオブジェクト ストレージ サービス) アクセス キーを提供しました。アクセスするには、ユーザーはまず Nomic Atlas アカウントを作成し、contrastors リポジトリの指示に従う必要があります。

Contrastors アドレス: https://github.com/nomic-ai/contrastors?tab=readme-ov-file#data-access

<<:  「小さいけれど優秀」な大規模言語モデル Zephyr 7B の詳細な説明

>>:  グラフ分野における初のユニバーサルフレームワークが登場しました。 ICLR'24 Spotlightに選ばれ、あらゆるデータセットと分類問題を解決できる

ブログ    

推薦する

レポート:AI関連職の年間給与は8.9%減少し、収入は2018年より低い

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

トレーニング時間とパラメータの数は100分の1に削減され、ラベルは予測に直接使用され、GNNを超えるパフォーマンスを実現

従来のラベル伝播法とシンプルなモデルを組み合わせると、一部のデータセットでは現在の最適な GNN の...

ドローン時代の到来により、人工知能航空機が有人戦闘機に取って代わり、パイロットは失業することになるのでしょうか?

まず、ドローンはソレイマニの暗殺に使用され、その後、アルメニアとアゼルバイジャンの戦場でドローンが活...

...

顔認識はどのようにして顔を認識するのでしょうか?

顔をスキャンして出勤記録を取ったり、顔で支払いをしたり、顔でドアを開けたり、顔をスキャンしながら生活...

5G+AI: 未来に影響を与える新たなトレンド

7月9日、2020年世界人工知能会議クラウドサミットが正式に開幕しました。 AI という SF 用語...

画像を外国語として扱うKuaishouと北京大学のマルチモーダル大規模モデルはDALLE-3に匹敵する

GPT や LLaMA などの現在の大規模言語モデルは、自然言語処理の分野で大きな進歩を遂げており、...

...

再びH800を去勢しますか?米国商務省の新しい政策はGPU輸出に対する規制を強化し、今週発表される予定である。

ロイター通信は今週、米国が中国へのGPU輸出をさらに制限する新たな規制を導入すると独占的に報じた。制...

...

Hadoop、Spark、Hive とはいったい何でしょうか? アルゴリズムを開発するには、これらを学ぶ必要がありますか?

[[422888]]みなさんこんにちは。私は梁唐です。最近、多くの新人がアルゴリズム エンジニアに...

...

Python でよく使われるアルゴリズム - 貪欲アルゴリズム (別名 greedy algorithm) をご存知ですか?

貪欲アルゴリズム (または貪欲アルゴリズム) とは、問題を解決するときに、その時点で適切と思われる選...

PyTorch モデルのトレーニングを高速化するための 9 つのヒント!

[[353240]]ニューラルネットワークをこのようにしないでください正直に言えば、あなたのモデル...

...