TensorFlow が素晴らしい機械学習データセット 30 選

TensorFlow が素晴らしい機械学習データセット 30 選

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

TensorFlow は、Google Brain の研究者によって作成された、機械学習とデータ サイエンスのための最大規模のオープン ソース ライブラリの 1 つです。これは、完全な初心者と経験豊富なデータ サイエンティストの両方に適したエンドツーエンドのプラットフォームです。 TensorFlow ライブラリには、ツール、事前トレーニング済みモデル、機械学習チュートリアル、公開データセットの完全なセットが含まれています。必要なトレーニング データを見つけやすくするために、この記事では TensorFlow での機械学習用の大規模なデータセットをいくつか簡単に紹介します。以下のデータセットのリストは、画像、ビデオ、オーディオ、テキストに分かれています。

TensorFlow 画像データセット

1. CelebA: 有名人の顔属性データセット (CelebA) は、200,000 を超える有名人の画像を含む、公開されている最大の顔画像データセットです。

[[337423]]

各画像には、5 つの顔注釈と 40 個のバイナリ属性注釈が含まれています。

2. ダウンサンプリング Imagenet: このデータセットは、密度推定と生成モデリングのタスク用に構築されています。物体、風景、乗り物、人物などの画像が 130 万点以上含まれています。画像は 32×32 と 64×64 の 2 つの解像度で利用できます。

3. Lsun — Lsun は、シーン理解のためのモデルのトレーニングを支援するために作成された大規模な画像データセットです。データセットには、寝室、教室、ダイニングルームなどのシーンカテゴリに分類された 900 万枚以上の画像が含まれています。

4. Bigearthnet – Bigearthnet は、Sentinel-2 衛星からの航空画像を含むもう 1 つの大規模データセットです。各画像は 1.2 km x 1.2 km の土地範囲をカバーします。このデータセットには不均衡なクラスが 43 個あります。

5. Places 365 – 名前の通り、Places 365 にはさまざまな場所やシーンの 180 万枚以上の画像が含まれています。これらのカテゴリには、オフィス、マリーナ、ヴィラなどが含まれます。 Places 365 は、シーン認識タスク用の最大規模のデータセットの 1 つです。

6. Quickdraw ビットマップ - Quickdraw データセットは、Quickdraw プレーヤー コミュニティによって描画された画像のコレクションです。 345 のカテゴリにわたる 500 万点の図面が収録されています。このバージョンの Quickdraw データセットは、28×28 のグレースケール画像で構成されています。

7. SVHN Cropped — Street View House Numbers (SVHN) は、数字認識アルゴリズムのトレーニング用にスタンフォード大学が作成した TensorFlow データセットです。 32×32 ピクセルにトリミングされた現実世界の画像データのインスタンスが 600,000 個含まれています。

8. VGGFace2 – 最大規模の顔画像データセットの 1 つである VGGFace2 には、Google 検索エンジンからダウンロードされた画像が含まれています。データセット内の顔は、年齢、ポーズ、民族が異なります。カテゴリーごとに平均 362 枚の画像があります。

9. COCO — Google、FAIR、Caltech などの協力者によって作成された、世界最大のラベル付き画像データセットの 1 つです。これは、オブジェクトの検出、セグメンテーション、および画像キャプション作成のタスク用に構築されています。

cocodataset.org経由

データセットには 330,000 枚の画像が含まれており、そのうち 200,000 枚にラベルが付けられています。すべての画像には、80 のカテゴリから合計 150 万個のオブジェクト インスタンスが含まれています。

10. Open Images Challenge 2019 — 約 900 万枚の画像を含むこのデータセットは、インターネット上で最大規模の注釈付き画像データセットの 1 つです。これらの画像には、画像レベルのラベル、オブジェクトの境界ボックス、オブジェクトのセグメンテーション マスク、およびそれらの間の視覚的な関係が含まれています。

11. Open Images V4 – このデータセットは、上記の Open Images データセットの別の反復です。 V4 バージョンには、600 種類のオブジェクト カテゴリに対応する 1,460 万個の境界ボックスが含まれています。これらの境界ボックスは、人間の注釈者によって手動で描画されます。

12. AFLW2K3D – このデータセットには、3D 顔グラウンドトゥルース注釈が付いた 2,000 枚の顔画像が含まれています。 3D 顔注釈検出モデルを評価するために作成されました。

ビデオデータセット

13. UCF101 – セントラルフロリダ大学の UCF101 は、アクション認識モデルのトレーニング用に構築されたビデオ データセットです。このデータセットには、101 のアクション カテゴリのビデオが 13,320 本含まれています。

14. BAIR Robot Pushing — Berkeley AI Research の BAIR Robot Pushing には、ロボットの押す動作のサンプル ビデオが 44,000 本含まれています。

15. Moving MNIST – このデータセットは、MNIST ベンチマーク データセットのバリエーションです。 Moving MNIST には 10,000 本のビデオが含まれています。

各ビデオでは、64×64 フレーム内での 2 つの手書き数字の動きが示されています。

16. EMNIST – 拡張 MNIST データセットには、28 x 28 ピクセルの画像に変換された元の MNIST データセットが含まれています。

TensorFlow オーディオ データセット

17. CREMA-D — 感情認識タスク用に作成された CREMA-D は、音声による感情表現で構成されています。 このデータセットには、さまざまな年齢、人種、性別の 91 人の俳優が声を吹き込んだ 7,442 個の音声クリップが含まれています。

18. Librispeech — Librispeech は、LibriVox プロジェクトのオーディオブックからの 1,000 時間の英語のスピーチを含むシンプルなオーディオ データセットです。音響モデルと言語モデルのトレーニングに使用されます。

19. Libritts — このデータセットには約 585 時間の英語の音声が含まれており、Google Brain チームのメンバーの協力を得て作成されました。 Libritts はもともとテキスト読み上げ (TTS) の研究用に設計されましたが、さまざまな音声認識タスクに使用できます。

20. TED-LIUM — TED-LIUM は、110 時間を超える英語の TED トークを含むデータセットです。 すべてのスピーチは書き起こされました。

21. VoxCeleb — VoxCeleb は、話者識別タスク用に構築された大規模な音声データセットで、1,251 人の話者からの 150,000 を超える音声サンプルが含まれています。

テキストデータセット

22. C4 (Common Crawl の Web クロール コーパス) — Common Crawl はオープン ソースの Web データベースです。 40 以上の言語で 7 年間にわたるデータが収録されています。

23. 市民コメント – このデータセットは、50 の英語ニュース Web サイトからの 180 万件を超える市民コメントで構成されています。

24. IRC Disentanglement – この TensorFlow データセットには、Ubuntu IRC チャネルからの 77,000 件を超えるコメントが含まれています。各サンプルのメタデータには、メッセージ ID とタイムスタンプが含まれます。

25. Lm1b – 言語モデルベンチマークとして知られるこのデータセットには、10億語が含まれています。もともとは統計言語モデリングの進歩を測定するために開発されました。

26. SNLI — スタンフォード自然言語推論データセットは、人間が書いた 570,000 の文章ペアのコーパスです。すべての文のペアは手動で注釈が付けられ、カテゴリはバランスが取れています。

27.e-SNLI — このデータセットは、前述の SNLI の拡張版です。元のデータセットから 570,000 の文のペアが含まれ、包含、矛盾、中立に分類されています。

28. MultiNLI – SNLIデータセットをモデルにしたMultiNLIには、末尾情報が注釈された433,000の文のペアが含まれています。

29. Wiki40b – この大規模なデータセットには、40 種類の言語の Wikipedia の記事が含まれています。データはクリーンアップされ、コンテンツ以外の部分と構造化オブジェクトは削除されました。

30. Yelp Polar Reviews – このデータセットには、非常に極端な Yelp レビューが 598,000 件含まれています。これらは、2015 Yelp Dataset Challenge のデータから抽出されたものです。

上記のデータセットは機械学習用の最大かつ最も広く使用されている TensorFlow データセットの一部ですが、TensorFlow ライブラリは広大で、常に拡大しています。プラットフォームが独自のモデルの構築にどのように役立つかについて詳しくは、TensorFlow の Web サイトをご覧ください。

<<:  AIはIoTベースのDDoS攻撃を阻止できる

>>:  PS効果よりも優れています!このような写真編集ツールを使ったことがありますか?

ブログ    
ブログ    
ブログ    

推薦する

LLM に代わる 2 億パラメータのタイミング モデル? Googleの画期的な研究は「初心者のミス」と批判される

最近、Google の論文が X などのソーシャル メディア プラットフォーム上で論争を巻き起こしま...

ダブル11プロモーション?貪欲アルゴリズムを使用して解決してください。

[[351760]]この記事はWeChatの公開アカウント「Java Chinese Commun...

テラデータCTO バオ・リミン:分析エンジンを使用して機械学習とディープラーニングを実現する

[51CTO.comよりオリジナル記事] 近年、機械学習、ディープラーニング、ビッグデータ分析が話題...

初心者が機械学習をすぐに始められるように、Colabリソースの完全なリストはこちらです。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ドローンは都市の発展を助け、6つの側面でインテリジェントな変化をもたらす

近年、国民の高品質・高水準の都市生活への絶え間ない追求に応えるため、スマートシティ建設が大きな注目を...

財務報告分析:マイクロソフトの生成AIへの賭けは成功したが、グーグルは依然として苦戦中

マイクロソフトとグーグルが財務報告を発表したが、一方は喜び、他方は悲しんだ。 AIへの大胆な賭けのお...

機械学習アルゴリズムの新たな女王 — XGBoost

15年前の初出勤の日のことを今でも覚えています。大学院を終えて、世界的な投資銀行にアナリストとして...

AIがパートナー探しをお手伝い:Tinder + AI = 仲人?

[[346697]] 2012年、インキュベーター企業のHatch Labsは、IACとXtrem...

AI人工知能がアパレル業界に侵入し、大量の「鉄丼」が解雇に直面!

[[238920]]ファッション業界における人工知能(AI)技術の応用はますます深く広範囲になって...

新しい報告書によると、AIはディープフェイクから人々を保護できない

Data & Society の新しいレポートでは、機械学習を使用して改変されるディープフェ...

...

中国の自動運転はアメリカの自動運転と比べてどう劣っているのか?

アリゾナ州フェニックスからテキサス州エルパソまでの距離は約 690 キロメートルで、地図に示されてい...

Aスターアルゴリズムの実装手順のJavaバージョン

スターアルゴリズムの手順: 1. 最初に、オープン リストに開始点を追加します。 2. オープンリス...

人工知能は製造業の未来をどのように変えるのでしょうか?

ある研究機関が最近発表した調査報告によると、2022年までに人工知能が製造業にもたらす価値は23億ド...

マスクは困った状況だ! Grok AI は ChatGPT を盗用した疑いがあるのでしょうか? ?

みなさんこんにちは。Ergouです。マスク氏は今日、困った状況に陥っている! X (Twitter)...