Zhiyuan が世界最大の中国語と英語のベクトルモデルトレーニングデータセットをリリースしました。最大3億のテキストペアまで拡張可能

Zhiyuan が世界最大の中国語と英語のベクトルモデルトレーニングデータセットをリリースしました。最大3億のテキストペアまで拡張可能

9月15日、北京人工知能産業サミットおよび中関村科学城科学技術イノベーションコンテスト授賞式において、人工知能研究院は中国語と英語のセマンティックベクトルモデルのトレーニング用MTP(大量テキストペア)データセットをリリースしました。

これは世界最大の中国語と英語のテキストペアのトレーニングデータセットであり、データサイズは3億ペアです。その3つの主な特徴は、巨大なスケール、豊富なトピック、高いデータ品質です。中国語モデルトレーニングデータセットの不足の問題を解決するのに役立ちます。

汎用セマンティック ベクトル モデルは、大規模モデルのパフォーマンスを決定する重要なコンポーネントです。外部モデルを外部知識にリンクできます。「関連テキスト」を基本要素とする高品質のトレーニング データは、汎用セマンティック ベクトル モデルを構築するための中核要素です。

今回オープンソース化されたMTPデータセットは、Zhiyuan BGEの中国語と英語のセマンティックベクトルモデルのトレーニングに使用された中国語と英語のデータです。

中国語・英語のベクトルモデルトレーニングデータ3億件を公開

大規模モデルのトレーニングにはデータが不可欠です。高品質のオープンソース データセット、特に基本モデルをトレーニングするためのオープンソース データセットを構築することは、大規模モデルの開発にとって非常に重要です。しかし、中国のコミュニティにはデータ オープンソース コントリビューターがほとんどいません。

今回公開された世界最大級のセマンティックベクトルモデル学習データMTPには、以下の特徴があります。

- 巨大なスケール:

3億のテキストペア、中国語が1億、英語が2億。

- 豊富なテーマ:

これは、検索、コミュニティ Q&A、百科事典の知識、科学技術文献など、さまざまなトピックを網羅した大量の高品質テキスト データから派生したものです。

- 高いデータ品質:

データは必要なサンプリング、抽出、フィルタリングを通じて取得され、このデータでトレーニングされたセマンティック ベクトル モデル BGE (BAAI General Embedding) は、同様のモデルよりも大幅に優れたパフォーマンスを発揮します。

MTP データセット リンク: https://data.baai.ac.cn/details/BAAI-MTP

BGE モデルリンク: https://huggingface.co/BAAI

BGE コード リポジトリ: https://github.com/FlagOpen/FlagEmbedding

データの重要性を踏まえ、Zhiyuanは2021年に世界最大のコーパスであるWuDaoCorporaを立ち上げ、200GBの高品質で低リスクの中国語コーパスを公開しました。これは400以上の産学研の連携であり、770以上の研究開発チームが申請しています。マイクロソフト、ハーバード大学、スタンフォード大学、ファーウェイ、アリババ、テンセント、彭城実験室などにデータサービスを提供しており、グローバルな大規模モデル関連の研究を効果的にサポートしています。

今年、世界最大規模で商用利用可能、継続的に更新される中国のオープンソース指導データセットである COIG が、世界 40 以上の機関から 100 人以上のエンジニアの参加を得てオープンし、国境を越えて緊密に協力するグローバルなデータ オープンソースの感動的なストーリーを生み出しました。

数十万回のダウンロードを誇る、最も人気のあるBGEモデルが更新されました

BGEセマンティックベクトルモデルは、リリース以来、大規模なモデル開発者コミュニティから多くの注目を集めています。現在、Hugging Faceの累計ダウンロード数は数十万に達し、LangChain、LangChain-Chatchat、llama_indexなどの有名なオープンソースプロジェクトに統合されています。

中国語意味埋め込みモデル評価 (C-MTEB)

英語セマンティックベクトルモデル評価リスト (MTEB)

Langchain 公式ツイート:「BGE モデルが MTEB ベンチマークで 1 位にランクイン」

LangChainの共同創設者兼CEO、ハリソン・チェイスの推薦

コミュニティからのフィードバックに基づいて、BGE はさらに最適化および更新され、より堅牢かつ優れたパフォーマンスを発揮するようになりました。具体的なアップグレード内容は以下のとおりです。

- モデルの更新:

BGE-*-zh-v1.5 は、トレーニング データをフィルタリングし、低品質のデータを削除し、トレーニング中に温度係数を 0.02 に増やすことで類似度分布の問題を軽減し、類似度の値をより安定させます。

- 新しいモデル:

オープンソースの BGE-reranker クロスエンコーダー モデルは、関連するテキストをより正確に見つけることができ、中国語と英語の両方をサポートします。ベクトルを出力する必要があるベクトル モデルとは異なり、BGE リランカーはテキスト ペアの類似性を直接出力します。これにより、ソート精度が向上し、ベクトル リコールの結果を並べ替えて最終結果の関連性を向上させることができます。

- 新機能:

BGE1.1では、ハードネガティブサンプルをマイニングするためのスクリプトが追加され、微調整後の検索効果を効果的に向上させることができます。微調整コードに命令を追加する機能が追加されました。モデルの保存も自動的にセンテンストランスフォーマー形式に変換され、モデルの読み込みがより便利になります。

注目すべきは、最近、Zhiyuan と Hugging Face が共同で技術レポートを発表し、C-Pack を使用して中国語の一般的な意味ベクトル モデルを強化することを提案したことです。

レポートアドレス: https://arxiv.org/abs/2309.07597

ビッグモデルの時代にLinuxのようなエコシステムを構築する

2022年末のChatGPTの登場により、世界的な大規模モデルの研究開発は爆発的な成長期に入りました。同時に、激しい競争と高コストもオープンソースの台頭を促し、人工知能の発展の重要な原動力となっています。

画期的な出来事は、今年5月に世界の人工知能界で広く流布された「オープンソースAIはGoogleとOpenAIに勝つ」と主張するGoogleの内部文書でした。Metaの代表的なオープンソースモデルであるLlamaは、業界の現在の発展において重要な役割を果たしています。

中国のビッグモデルオープンソースエコシステムの代表組織として、ZhiyuanはFlagOpen Feizhiビッグモデルテクノロジーオープンソースシステムの構築に尽力しており、ビッグモデルの共同構築と共有の時代に「Linuxのような」オープンソースエコシステムをリードしています。

2022年11月に立ち上げられ、2023年2月に正式リリースされたFlagOpenビッグモデルテクノロジーオープンソースシステムは、ビッグモデルのオープンソース構築の全体的な傾向を先見的に予見しています。

現在、オープンソースモデル技術開発システムであるFlagOpenは、埋め込み技術とモデルに重点を置いたFlagEmbeddingセクションを追加しました。BGEはその中の最初のオープンソースモデルです。

フラグ埋め込み: https://github.com/FlagOpen/FlagEmbedding

BGE プロジェクトに加えて、FlagOpen には、大規模モデル アルゴリズム、モデル、データ、ツール、評価などの重要なコンポーネントもあります。

そのうち、FlagEval(Libra)大規模モデル評価システムおよびオープンプラットフォームは、3次元評価システムを構築し、600以上の総合的な能力評価をカバーしています。科学的、公正かつオープンな評価ベンチマーク、方法、ツールセットを確立し、研究者が基本モデルやトレーニングアルゴリズムのパフォーマンスを総合的に評価するのを支援することを目指しています。

毎月発表されるFlagEval大規模モデル評価リストは、主流モデルを多面的に評価・解釈し、公正かつ包括的なゴールドスタンダードを作成し、大規模モデルの能力評価の風向計としてますます重要になっています。

<<: 

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIとIoTの長所と短所

モノのインターネットは、私たちがテクノロジーや周囲の世界と関わる方法に革命をもたらしました。 データ...

マイクロソフト リサーチの新たな成果: 携帯電話のカメラを使用して心肺バイタル サインを遠隔測定

Microsoft Research は、消費者の手に握られたスマートフォンのカメラを使用して、遠隔...

...

ソフトウェアテストが再び進化、Testinクラウドテストリモート実機サービスには明らかな利点がある

モバイルインターネット時代の始まり以来、スマートフォンへのソフトウェアの適応は常にソフトウェア業界の...

素晴らしい瞬間を振り返りましょう! IEEE Spectrumが2023年の最もホットなAIストーリーをレビュー

また冬が来て、終わりに近づいています。気温も少し上がり、広大な空と大地にはまだ溶けきれない白が残って...

...

OpenAI、リーダーシップ争いの末に新事業GPTストアを立ち上げ

ChatGPT Team は OpenAI の Enterprise Edition 製品の小型版で...

IDC が製造業の予測を発表。AI によるリスク意思決定がリストに含まれているのはなぜですか?

製造業の実際の発展状況は、国の経済発展と社会の安定に関係しています。伝統的な製造業のインテリジェンス...

たった一枚の写真でTikTokガール全員が踊れる

数日前、アリババの研究チームは「Animate Anyone」と呼ばれる手法を構築しました。この手法...

...

AI技術の発展に伴い、今後15年間でAI犯罪はピークに達するでしょうか?

ロンドン大学ユニバーシティ・カレッジの新しい報告書は、人工知能が犯罪テロに悪用される可能性を指摘して...

...

...

ハイパースケールクラウドコンピューティングプロバイダーはAIクラウドサービスへの投資に注力している

今日、AI クラウド サービスは、データ サイエンティストや開発者を惹きつけ、自社のプラットフォーム...

北京の自動運転路上試験、安全走行距離が300万キロ超え

IT Homeは5月30日、新華社通信が伝えたところによると、記者が29日に北京市インテリジェント車...