10 のカテゴリ、142 のデータソース、中国語 NLP データセットがオンライン検索で利用可能になりました

10 のカテゴリ、142 のデータソース、中国語 NLP データセットがオンライン検索で利用可能になりました

このオープンソース プロジェクトがあれば、適切な中国語 NLP データセットが見つからないと心配する必要がなくなります。142 のデータセットがあるので、必ず自分に合ったものが見つかります。

[[316857]]

中国語 NLP データセット検索: https://www.cluebenchmarks.com/dataSet_search.html

NLP 学習におけるこの後戻りできない道では、最も高度なアルゴリズムと高品質のサンプルコードでは常に英語のデータセットが使用されていることがわかります。しかし、モデルを中国世界に移行したいと考えたとき、公開されている高品質のデータセットの不足が克服できない障害となりました。たとえば、最も単純な言語モデルと単語埋め込みモデルでは、自然な中国語のテキストのセグメントのみが必要です。しかし、実際には、有用な大規模な公開コーパスはほとんどないことがわかります。

GitHub などのプラットフォームで中国語 NLP データセットを収集するさまざまなプロジェクトを見つけて、ニーズに応じて選択する必要があります。注目すべきは、中国国内のデータセットの多くは非常に古く、その使用はより面倒であるということです。現時点では、私たち自身の判断と試行錯誤が必要です。

しかし、この記事では、現時点で最も包括的な中国語 NLP データセット情報収集プロジェクトとなる可能性のある、新しい中国語 NLP データ検索プロジェクトを紹介します。このプロジェクトでは、100 件を超える中国語 NLP データ情報を収集し、その結果を検索形式で表示しました。キーワードやデータセットが属する分野などの情報を入力するだけで、対応するデータセットを見つけることができます。

各検索結果には、データセットの基本情報やアクセス リンクなどの重要な情報が表示されるため、データセットをすばやくフィルター処理できます。各分野には類似したデータセットが多数存在するため、これらの簡単な説明は非常に有意義です。

利用可能なデータセットを確認したい場合は、すべてのデータセットに関する情報が掲載されている検索プロジェクトの GitHub アドレスを直接確認できます。

これは非常に完全な中国語NLPデータセットです

このプロジェクトの NLP データセットには、NER、QA、感情分析、テキスト分類、テキスト割り当て、テキスト要約、機械翻訳、ナレッジグラフ、コーパス、読解など、10 のカテゴリの 142 のデータセットが含まれています。

具体的には、各データセットについて、プロジェクト作成者はデータセット名、更新時間、データセットプロバイダー、説明、キーワード、カテゴリ、論文アドレスなどの情報を提供します。

プロジェクトアドレス: https://github.com/CLUEbenchmark/CLUEDatasetSearch

このプロジェクトは、中国語の NLP データセットを分類します。

ただし、プロジェクト全体には多くの種類のデータセットが含まれているため、Synced では感情分析データセットとテキスト分類データセットについてのみ簡単に紹介します。

感情分析

自然言語処理 (NLP) の一般的なアプリケーションとして、感情分析は、テキストの感情的な内容を抽出することを目的とした分類方法に特に適しています。このプロジェクトでは、NLPCC 2013/2014、Weibo Emotions Corpus、Zhijiang Cup E-commerce Comment Mining Competition、2019 Sohu Campus Algorithm Competition データセットなど、11 の感情分析データセットのソースを紹介します。

プロジェクト内の中国語感情分析データセットの詳細。

テキスト分類

自然言語処理で最も一般的に使用される基本的なアプリケーションとして、テキスト分類用のデータセットはすでに多数存在します。このプロジェクトでは、Toutiao 中国語ニュース (テキスト) 分類、THUCNews 中国語テキスト分類、2017 Zhihu Kanshan Cup 機械学習チャレンジ、USTC ニュース分類コーパスなど、19 のテキスト分類データセットのソースを紹介します。

プロジェクト内のいくつかのテキスト分類データセットの詳細。

最後に、開発者はデータセット情報をアップロードして、自分の強みを発揮することもできます。5つ以上のデータセット情報をアップロードすると、審査に合格した後、このプロジェクトの貢献者になることができます。現時点では、142 のデータセットはすでに非常に完成しているようですが、より多くの NLP サブフィールド タスクについては、それらをまとめて維持する必要があります。

<<:  流行は収まったが、学校の開始は何度も延期されている。プログラムシミュレーションでその理由がわかる

>>:  脳コンピューターインターフェースから量子コンピューティングまで: 今後 10 年間のトップ 10 のテクノロジートレンド

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

北京大学の研究者らは、今回AIが「平らになる」理由を発見した。それはすべてデータセットのせいだ

人工知能をトレーニングする場合、AI は人間のタスクを完了するための不可解な方法を学習してしまうこと...

ビッグモデルにハリー・ポッターを忘れさせよう、マイクロソフトの新しい研究はラマ2の記憶消去を演出、本当に魔法を使って魔法を倒す(doge)

マイクロソフトの最近の研究により、ラマ2号は選択的健忘症にかかり、ハリー・ポッターに関するすべてのこ...

...

工業情報化部:中国初の個人情報保護AIモデル「智慧」アシスタントをリリース

2月29日、工業情報化省は2023年第4四半期の電気通信サービスの品質に関する通知を発行した。通知で...

EasyDL モデルのトレーニングから EdgeBoard 推論までのステップバイステップ ガイド

まとめ: EdgeBoard は Baidu が開発した FPGA ベースの組み込み AI ソリュー...

ジャック・マー氏がまたもや的を射た発言:「将来、住宅はタマネギのように安くなる」のは固定資産税ではなく人工知能のせい?

「家はタマネギのように安くなる」というのは、家を買う余裕のないすべての人にとっての将来のビジョンな...

暗号化アルゴリズムの将来と現状の簡単な分析

[[357912]]現在最も一般的に使用されている暗号化アルゴリズムは、一方向暗号化と双方向暗号化に...

...

生成 AI 規制: 「ディープフェイク技術」は大規模言語モデルの自由意志を実証するか?

特定のスタイルの生成 AI プロンプトを与えるということは、AI に想像力を働かせてほしいということ...

30 行の JavaScript コードで、わずか数分でニューラル ネットワークを作成する方法を学びます。

[[203712]]ニューラルネットワークを自分で構築するのは複雑すぎますか? [[203713]...

AIとIoTの連携方法

人工知能 (AI) とモノのインターネット (IoT) の融合により、イノベーションの新しい時代が到...