1週間前、OpenAIはユーザーに特典を配布しました。GPT-4が怠惰になる問題を修正した後、より小型で効率的なtext-embedding-3-small埋め込みモデルを含む5つの新しいモデルもリリースしました。 埋め込みは、自然言語やコードなどのコンテンツ内の概念を表す数字のシーケンスであることがわかっています。埋め込みにより、機械学習モデルやその他のアルゴリズムがコンテンツ間のつながりを理解し、クラスタリングや検索などのタスクを実行しやすくなります。 NLP の分野では埋め込みが非常に重要であることがわかります。 ただし、OpenAI の埋め込みモデルは誰でも無料で使用できるわけではありません。たとえば、text-embedding-3-small の価格は 1,000 トークンあたり 0.00002 ドルです。 現在、text-embedding-3-small よりも優れた埋め込みモデルがあり、それらは無料です。 AI スタートアップ企業 Nomic AI は、Nomic Embed のリリースを発表しました。これは、オープン ソース、オープン データ、オープン ウェイト、オープン トレーニング コード、完全に再現可能で監査可能な埋め込みモデルであり、コンテキスト長は 8192 で、短いコンテキストと長いコンテキストの両方のベンチマークで OpenAI text-embedding-3-small および text-embedding-ada-002 を上回りました。 テキスト埋め込みは、LLM およびセマンティック検索のための検索拡張生成 (RAG) を提供する、最新の NLP アプリケーションの不可欠な部分です。この技術は、文章または文書に関する意味情報を低次元ベクトルにエンコードし、データの視覚化、分類、情報検索のためのクラスタリングなどの下流アプリケーションで使用できるようにします。現在、最も人気のある長いコンテキストのテキスト埋め込みモデルは、コンテキスト長 8192 をサポートする OpenAI の text-embedding-ada-002 です。残念ながら、Ada はクローズドソースであり、トレーニング データは監査できません。 さらに、最高のパフォーマンスを誇るオープンソースの長コンテキストテキスト埋め込みモデル (E5-Mistral や jina-embeddings-v2-base-en など) は、モデルのサイズが大きいため汎用には適していないか、OpenAI の同等のモデルよりもパフォーマンスが劣っています。 Nomic-embed のリリースにより、これが変わります。このモデルには 1 億 3,700 万個のパラメータしかなく、導入が非常に簡単で、5 日間でトレーニングできます。 論文アドレス: https://static.nomic.ai/reports/2024_Nomic_Embed_Text_Technical_Report.pdf 論文タイトル: Nomic Embed: 再現可能なロングコンテキストテキスト埋め込みのトレーニング プロジェクトアドレス: https://github.com/nomic-ai/contrastors nomic-embedの構築方法既存のテキスト エンコーダーの主な欠点の 1 つは、シーケンスの長さが 512 トークンに制限されていることです。より長いシーケンスのモデルをトレーニングするには、まず BERT を調整して長いシーケンス長に適応できるようにします。この研究のターゲット シーケンス長は 8192 です。 コンテキスト長 2048 で BERT をトレーニングする この研究では、nomic-embed をトレーニングするために、多段階の対照学習パイプラインに従います。まず、この研究では BERT を初期化しました。bert-base は最大 512 トークンのコンテキスト長しか処理できないため、この研究では 2048 トークンのコンテキスト長で独自の BERT (nomic-bert-2048) をトレーニングすることにしました。 研究チームは、MosaicBERT に触発されて、BERT のトレーニング プロセスに次のような変更を加えました。
次のトレーニング最適化が実行されました。
トレーニング中、この研究ではすべてのステージを最大シーケンス長 2048 でトレーニングし、推論中に動的 NTK 補間を使用してシーケンス長を 8192 に拡張しました。 実験この研究では、標準の GLUE ベンチマークで nomic-bert-2048 の品質を評価し、他の BERT モデルと同等のパフォーマンスを発揮する一方で、コンテキストの長さが大幅に長いという利点があることがわかりました。 nomic-embedの比較トレーニング この研究では、nomic-bert-2048 を使用して nomic-embed のトレーニングを初期化しました。比較データセットは約 2 億 3,500 万のテキスト ペアで構成されており、その品質は収集プロセス中に Nomic Atlas を使用して徹底的に検証されました。 MTEB ベンチマークでは、nomic-embed は text-embedding-ada-002 および jina-embeddings-v2-base-en よりも優れています。 ただし、MTEB では長いコンテキストのタスクを評価することはできません。したがって、この研究では、最近リリースされた LoCo ベンチマークと Jina Long Context ベンチマークで nomic-embed を評価します。 LoCo ベンチマークについては、この研究では、パラメータ カテゴリ別、および評価が教師あり設定と教師なし設定のどちらで実行されるかによって個別に評価します。 下の表に示すように、Nomic Embed は 1 億パラメータの教師なしモデルの中で最もパフォーマンスに優れています。特に、Nomic Embed は、7B パラメータ クラスで最高のパフォーマンスを発揮するモデルや、LoCo ベンチマーク専用の教師あり設定でトレーニングされたモデルに匹敵します。 Jina Long Context ベンチマークでは、Nomic Embed は jina-embeddings-v2-base-en よりも全体的に優れていますが、このベンチマークでは Nomic Embed は OpenAI ada-002 や text-embedding-3-small よりも優れていません。 全体的に、Nomic Embed は 2/3 のベンチマークで OpenAI Ada-002 および text-embedding-3-small を上回りました。 調査によると、Nomic Embed を使用するための最良の選択肢は Nomic Embedding API であり、API を取得する方法は次のとおりです。 最後に、データ アクセス: 完全なデータにアクセスするために、調査ではユーザーに Cloudflare R2 (AWS S3 に似たオブジェクト ストレージ サービス) アクセス キーを提供しました。アクセスするには、ユーザーはまず Nomic Atlas アカウントを作成し、contrastors リポジトリの指示に従う必要があります。 Contrastors アドレス: https://github.com/nomic-ai/contrastors?tab=readme-ov-file#data-access |
<<: 「小さいけれど優秀」な大規模言語モデル Zephyr 7B の詳細な説明
>>: グラフ分野における初のユニバーサルフレームワークが登場しました。 ICLR'24 Spotlightに選ばれ、あらゆるデータセットと分類問題を解決できる
ガートナーの予測によると、2025年までにクラウドデータセンターの半数が人工知能(AI)と機械学習(...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
長年にわたり、持続可能なエネルギーは科学者にとって大きな関心事である重要な分野でした。人々は、効果的...
Nature の年間トップ 10 科学者およびトップ 10 科学イベントが発表されました。今年の科学...
テスラは2020年10月、車の所有者が駐車し、巡航速度で車線を自動的に維持し、赤信号で停止することを...
AIを主流にするために、科学者や研究者はさらなる努力を重ねてきました。 [[315507]]そのため...
[[225280]] 2018年度Google PhDフェローシップ(北米、ヨーロッパ、中東)の候...
人工知能の革新により、よりスマートなロボットが開発されました。ロボットはコンピューターによってプログ...
[[408951]]人工知能は未来をリードする戦略的な技術であり、国際競争の焦点にもなっています。わ...
人工知能は、人間の活動と市場投資の2つの主要分野である健康と言語に拡大しています。 「State o...