データセット検索アーティファクト! 100 個の大規模な機械学習データセットがここに収集されています

データセット検索アーティファクト! 100 個の大規模な機械学習データセットがここに収集されています

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

自分で機械学習モデルを構築したいと思っていましたが、最初のステップで行き詰まってしまいました。

インターネット上にはさまざまなデータセットが混在しており、その品質もまちまちで、人々を困惑させています。大きなデータセットを入手したい場合は、各データセットのWebサイトに1つずつアクセスする必要があります。一言で言えば、面倒です

機械学習の分野で最大かつ最高品質のデータセットを効率的に見つけるにはどうすればよいでしょうか?

ネットユーザーからの要望に応えて、u/UpdraftDev はインターネット上で最大規模の機械学習データセットを収集・編集し、分類して紹介しました。

お気に入りのデータセットを簡単に見つけられるようになりました。ネットユーザー:とても満足!

とても便利

このウェブサイトでは、業界をリードする 100 を超えるデータセットが収集されています。

タスク カテゴリに応じて、これらのデータセットは、コンピューター ビジョン (CV)、自然言語処理 (NLP)、およびオーディオ データセットの 3 つのカテゴリに分類されます。

ウェブサイトのホームページでは、データセット名、リリース時間、簡単な紹介、オープンソース契約、関連論文などの重要な情報が一目でわかるため、見つけるのに非常に便利です。

それをクリックすると、ウェブサイトのホームページに直接リダイレクトされます。 1 回のクリックで、各データセットのアドレスを 1 つずつ検索する必要がなくなります。

妖精データセット

リストに記載されているデータセットの中には、業界で有名な興味深いデータセットが多数あります。多くの機械学習タスクでは、これらのデータセットが最も実用的であり、最も頻繁に使用されます

これらの魔法のデータセットとは何でしょうか?

コンピュータビジョン

まず、CV フィールドを見てみましょう。概要には、よく遭遇する多くの古典的なデータ セットを含む 70 個の大きなデータ セットが含まれています。

いくつ認識できるか試してみてください:

その中には、NVIDIAが昨年12月に公開した顔データセットFFHQ (Flickr-Faces-HQ)が含まれており、解像度1024×1024の高解像度顔画像7万枚が含まれている。

[[260143]]

非常に多様で高品質な顔データを提供し、CelebA-HQ などの既存の高解像度データセットよりも多くのバリエーション (メガネや帽子をかぶった人の写真など) をカバーします。

おなじみの中国企業もいくつかあります。

たとえば、Baidu のオープン自動運転データセットApolloScapeには、知覚、シミュレーションシーン、道路ネットワークデータなど、ピクセル単位のセマンティックセグメンテーションと注釈が付いた高解像度画像データの数十万フレームが含まれています。

このデータセットは、ピクセル単位のセマンティックセグメンテーションと注釈付け手法を採用しており、複雑な環境、正確な注釈、大量のデータを備えた自動運転データセットです。

[[260144]]

Tencent のオープンソース Tencent ML-Images プロジェクトのマルチラベル画像データセットML-Imagesには、1,800 万枚の画像と 11,000 を超える一般的なオブジェクトカテゴリが含まれており、Google のオープンソース Open Images データセットよりもはるかに豊富です。

もちろん、ImageNet、KITTI、COCO、Cityscapes などの古典的なデータセットも含まれています。

自然言語処理(NLP)分野

現在、NLP 分野には 26 のデータセットがあります。

スタンフォード大学 NLP グループのSQuAD 2.0について知っておく必要があります。第 1 世代と比較すると、バージョン 2.0 では敵対的な質問が追加されるだけでなく、「提供された読み取りテキストに基づいて質問に答えられるかどうかを判断する」という新しいタスクも追加されています。

SQuAD 2.0 には、100,000 の質問と回答のペアだけでなく、人間のクラウドワーカーによって敵対的に設計された 50,000 を超える回答不可能な質問も含まれています。

CoQAデータセットもスタンフォード大学が開発した会話データセットで、8,000 グループの会話からの 127,000 件の質問と回答が含まれています。これらの会話は 7 つの異なる領域をカバーします。各会話の平均長さは 15 ラウンドで、各会話ラウンドは質問と回答で構成されます。

さらに、DeepMind の Q&A 質問応答データセット、Microsoft の MS MARCO 機械読解データセット、3 人の中国人学生が立ち上げた HotpotQA の新しい質問応答データセットなどにも、このリストでワンクリックでアクセスできます。

オーディオデータセット

4 つの大きなオーディオ データセットもあります。

Google の大規模オーディオ データセットAudioSetには、632 のオーディオ カテゴリと、手動でラベル付けされた 10 秒のサウンド クリップ 2,084,320 個が含まれており、人間や動物、楽器や音楽のジャンル、日常の環境音など、幅広い範囲をカバーしています。

Google のNSynthデータセットには、さまざまなピッチやレートを含む 1,000 種類の楽器から収集された多数の注釈付き音符が含まれており、これは同様の公開データセットよりも桁違いに大きいです。

スタートアップ企業Mozillaが公開したCommon Voiceデータセットには、2万人の英語ボランティアによる500時間、40万件の録音が含まれており、コーパスは継続的に拡大しています。

また、 LibriSpeech ASR コーパス音声データセットもあり、これには 1,000 時間の英語の発音と対応するテキストが含まれています。このデータは、LibriVox プロジェクトのオーディオブックから取得され、大規模なコーパス データベースです。

<<:  CBインサイトがAI業界の25大トレンドを発表:中国では顔認識や無人店舗が急速に発展

>>:  レノボAmu:シーンインテリジェンスの時代に新たな「三大デバイス」を再定義

ブログ    

推薦する

CPU、TPU、GPU、DPU、QPUについて学ぶ

AIの人気に伴い、CPU、TPU、GPU、DPU、QPUなどの略語がさまざまなメディアで飛び交ってい...

人工知能は製品のサービスとサポートの方法を変える

私は、IoT を活用して現場サービスと顧客サポートの効率性を向上させることを目指す機器メーカーのクラ...

四足歩行ロボットが二足歩行で階段を降りることを学びます。脚型システムより83%効率が高い

テスラと競争したロボットを覚えていますか? これは、チューリッヒにあるスイス連邦工科大学のスピンオフ...

...

...

偽3Dシーンがリアルすぎるとネット上で人気に!死角ゼロの1億画素超え、AIレンダリングの新たな高みと称賛

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIとIoTが教育に与える影響

高度なデジタル科学技術の革命は私たちの生活のあらゆる分野に影響を及ぼしており、教育業界も例外ではあり...

Pythonがリードを拡大、PyTorchはわずか6.4%

最近、有名なデータサイエンスのウェブサイト KDnuggets が、2018 年のデータサイエンスお...

GPT-4/Llama2のパフォーマンスを大幅に向上させるためにRLHFは必要ない、北京大学のチームはAlignerの新しいアライメントパラダイムを提案

背景大規模言語モデル (LLM) は強力な機能を発揮していますが、不快な応答、虚偽の情報、漏洩した個...

...

「本物の人間かどうか」を検証、AIが人間を攻撃! GPT-4は99.8%の精度でチューリングテストに合格し、オンラインで助けを求めた。

あなたは実在の人物ですか? Web ページを開いて奇妙な確認コードが表示されるたびに、それをクリック...

AIとロボット工学でオフショア業務を効率化する方法

長い間、肉体的に過酷で危険な仕事が特徴とされてきた石油産業は、変革を遂げつつある。この変化は、通信技...

予測 AI は顧客とのつながりをどのように変えるのでしょうか?

[[422098]]予測分析は、私たちが必ずしも気づいていないとしても、私たちの生活の多くの分野に...

マイクロソフトの小型モデルが大型モデルに勝利:27億のパラメータ、携帯電話で実行可能

先月、マイクロソフトのCEOであるサティア・ナデラ氏はIgniteカンファレンスで、自社開発の小型モ...