10 のカテゴリ、142 のデータソース、中国語 NLP データセットがオンライン検索で利用可能になりました

10 のカテゴリ、142 のデータソース、中国語 NLP データセットがオンライン検索で利用可能になりました

このオープンソース プロジェクトがあれば、適切な中国語 NLP データセットが見つからないと心配する必要がなくなります。142 のデータセットがあるので、必ず自分に合ったものが見つかります。

[[316857]]

中国語 NLP データセット検索: https://www.cluebenchmarks.com/dataSet_search.html

NLP 学習におけるこの後戻りできない道では、最も高度なアルゴリズムと高品質のサンプルコードでは常に英語のデータセットが使用されていることがわかります。しかし、モデルを中国世界に移行したいと考えたとき、公開されている高品質のデータセットの不足が克服できない障害となりました。たとえば、最も単純な言語モデルと単語埋め込みモデルでは、自然な中国語のテキストのセグメントのみが必要です。しかし、実際には、有用な大規模な公開コーパスはほとんどないことがわかります。

GitHub などのプラットフォームで中国語 NLP データセットを収集するさまざまなプロジェクトを見つけて、ニーズに応じて選択する必要があります。注目すべきは、中国国内のデータセットの多くは非常に古く、その使用はより面倒であるということです。現時点では、私たち自身の判断と試行錯誤が必要です。

しかし、この記事では、現時点で最も包括的な中国語 NLP データセット情報収集プロジェクトとなる可能性のある、新しい中国語 NLP データ検索プロジェクトを紹介します。このプロジェクトでは、100 件を超える中国語 NLP データ情報を収集し、その結果を検索形式で表示しました。キーワードやデータセットが属する分野などの情報を入力するだけで、対応するデータセットを見つけることができます。

各検索結果には、データセットの基本情報やアクセス リンクなどの重要な情報が表示されるため、データセットをすばやくフィルター処理できます。各分野には類似したデータセットが多数存在するため、これらの簡単な説明は非常に有意義です。

利用可能なデータセットを確認したい場合は、すべてのデータセットに関する情報が掲載されている検索プロジェクトの GitHub アドレスを直接確認できます。

これは非常に完全な中国語NLPデータセットです

このプロジェクトの NLP データセットには、NER、QA、感情分析、テキスト分類、テキスト割り当て、テキスト要約、機械翻訳、ナレッジグラフ、コーパス、読解など、10 のカテゴリの 142 のデータセットが含まれています。

具体的には、各データセットについて、プロジェクト作成者はデータセット名、更新時間、データセットプロバイダー、説明、キーワード、カテゴリ、論文アドレスなどの情報を提供します。

プロジェクトアドレス: https://github.com/CLUEbenchmark/CLUEDatasetSearch

このプロジェクトは、中国語の NLP データセットを分類します。

ただし、プロジェクト全体には多くの種類のデータセットが含まれているため、Synced では感情分析データセットとテキスト分類データセットについてのみ簡単に紹介します。

感情分析

自然言語処理 (NLP) の一般的なアプリケーションとして、感情分析は、テキストの感情的な内容を抽出することを目的とした分類方法に特に適しています。このプロジェクトでは、NLPCC 2013/2014、Weibo Emotions Corpus、Zhijiang Cup E-commerce Comment Mining Competition、2019 Sohu Campus Algorithm Competition データセットなど、11 の感情分析データセットのソースを紹介します。

プロジェクト内の中国語感情分析データセットの詳細。

テキスト分類

自然言語処理で最も一般的に使用される基本的なアプリケーションとして、テキスト分類用のデータセットはすでに多数存在します。このプロジェクトでは、Toutiao 中国語ニュース (テキスト) 分類、THUCNews 中国語テキスト分類、2017 Zhihu Kanshan Cup 機械学習チャレンジ、USTC ニュース分類コーパスなど、19 のテキスト分類データセットのソースを紹介します。

プロジェクト内のいくつかのテキスト分類データセットの詳細。

最後に、開発者はデータセット情報をアップロードして、自分の強みを発揮することもできます。5つ以上のデータセット情報をアップロードすると、審査に合格した後、このプロジェクトの貢献者になることができます。現時点では、142 のデータセットはすでに非常に完成しているようですが、より多くの NLP サブフィールド タスクについては、それらをまとめて維持する必要があります。

<<:  流行は収まったが、学校の開始は何度も延期されている。プログラムシミュレーションでその理由がわかる

>>:  脳コンピューターインターフェースから量子コンピューティングまで: 今後 10 年間のトップ 10 のテクノロジートレンド

ブログ    
ブログ    

推薦する

ドローンは何に使えるのでしょうか?これらの使い方は本当に素晴らしいです!

ドローンは最近ますます人気が高まっています。高解像度カメラ付きの機械を数百ドルで購入することもできま...

...

人工知能は視覚障害者にさらなる利便性をもたらす

人工知能は私たちの旅行や生活を変えただけでなく、いくつかの専門分野にも影響を与えました。例えば、次に...

監督が消えた! Midjourney+Miaoyaカメラ+Gen2の新ゲームプレイ:10元でMuskユニバースを作成し、ワンクリックでビデオを作成します

生成 AI の爆発的な増加により、無限の可能性がもたらされました。最近、国内ではミャオヤカメラがイン...

貪欲アルゴリズムについて質問するのはやめてください。

[[323204]]序文三角形の最短経路と和を求めるとき、貪欲アルゴリズムを使用して解決できますか...

...

...

滴滴出行はオペレーションズリサーチ分野の最高賞であるワグナー優秀実践賞を受賞した初の中国企業となる。

2019年INFORMS年次総会が米国時間10月20日から23日までシアトルで開催されました。同総...

NetEase Fuxi Game AI Botの擬人化と様式化:AIGAはゲーム探索を強化

1. AIGCからAIGAへAIGC は AI によって生成されたコンテンツを指し、すでに広く理解さ...

...

Chen Danqi 氏のグループによるマスク言語モデルに関する研究: 15% のマスク率は最適ではないが、40% は維持可能か?

少し前に、スローン財団は2022年度スローン研究賞の受賞者を発表しました。Chen Danqi、Fa...

虐殺後に行方不明になった親族をAIで探す! Googleのエンジニアが第二次世界大戦の70万枚以上の古い写真を識別できる顔認識プログラムを開発

AI顔認識の分野で新たなビジネスが開拓されているのでしょうか?今回の課題は、第二次世界大戦の古い写真...

AIに勝てずイ・セドルが引退を発表

[[284089]] AI囲碁プログラム「アルファ碁」を破った唯一の人間である韓国の九段、イ・セドル...

スポーツ業界における5つの重要なAI応用分野

データサイエンスと人工知能がスポーツ分析に導入されることは当たり前のことになりました。そして、テクノ...