機械学習とコンピュータービジョンのためのトップ 20 画像データセット

この記事は、公開アカウント「Reading the Core」（ID: AI_Discovery）から転載したものです。

コンピュータービジョンにより、コンピューターは画像やビデオの内容を理解できるようになり、人間の視覚システムと同じようにタスクを自動的に完了できるようになります。コンピュータービジョンのタスクには、画像の取得、処理、分析が含まれます。画像データには、ビデオシーケンス、マルチカメラ画像、医療用スキャナーからの多次元データなど、さまざまな形式があります。この記事では、機械学習のトレーニングに適したデータセットをいくつか紹介します。

[[376002]]

（1）Labelme：MITコンピュータ科学・人工知能研究所（CSAIL）が共同で作成した大規模なデータセット。187,240枚の画像、62,197枚の注釈付き画像、658,992個のラベル付きオブジェクトが含まれています。

（２）ImageNet：新しいアルゴリズムのための現実世界の画像データセット。WordNet階層に従って編成されており、階層内の各ノードは数百または数千の画像で記述されています。

（３）LSUN：シーン理解、多くの補助タスク（部屋のレイアウト推定、顕著性予測など）

（4）MS COCO：COCOは、20万枚以上のラベル付き画像を含む大規模な物体検出、セグメンテーション、キャプション作成データセットです。オブジェクトのセグメンテーション、コンテキストの認識などに使用できます。

（５）コロンビア大学画像ライブラリ：COIL100データセットには、360°で撮影された100種類のオブジェクトが含まれています。

（6）ビジュアルゲノム：構造化された画像概念と言語を結び付けることを目的としたデータセットおよび知識ベースです。このデータセットは、108,077 個の画像キャプションを含む詳細な視覚知識ベースです。

（7）レゴブロック：16種類のレゴブロックの画像約12,700枚がフォルダに整理され、Blenderを使用してコンピュータレンダリングされています。

（8）Google Open Images：クリエイティブ・コモンズで利用可能な、「6,000以上のカテゴリにわたるラベルが付けられた」900万枚の画像のURL。

Open Images データセットからの注釈付き画像。

左: Kevin Krejci による「Ghost Arch」。右: J B. の銀製品の一部。両方の画像は CC BY 2.0 ライセンスの下で使用されています。

（9）Youtube-8M：数百万のYouTube動画IDから構成される大規模なラベル付きデータセットで、3,800以上の視覚的エンティティの注釈が含まれています。

（10）Labelled Faces in the Wild：顔認識関連のアプリケーションの開発を目的とした、ラベル付けされた顔画像13,000枚が含まれています。

（11）スタンフォード犬のデータセット：20,580枚の画像と120種類の犬種が含まれており、カテゴリごとに約150枚の画像があります。

（12）場所：205のシーンカテゴリーとカテゴリーラベル付きの250万枚の画像を含むシーンベースのデータベース。

（13）CelebFaces：20万枚以上の有名人の画像が収録された顔データセット。各画像には40個の属性が付与されている。

CelebFacesデータセットのサンプル画像

（14）花：英国でよく見られる花の画像のデータセット。102の異なるカテゴリで構成されています。各花のカテゴリーは、さまざまなポーズと照明のバリエーションを持つ 40 ～ 258 枚の画像で構成されています。

（15）植物画像解析：100万枚以上の植物画像を収録したデータセットのコレクション。 11種類の植物からお選びいただけます。

（16）家庭内オブジェクト：主にキッチン、バスルーム、リビングルームからの家庭内のランダムなオブジェクトを含むデータセット。トレーニングデータセットとテストデータセットに分かれています。

（17）CIFAR-10：10のカテゴリーに分けられた60,000枚の32×32カラー画像からなる大規模な画像データセット。データセットは 5 つのトレーニングバッチと 1 つのテストバッチに分かれており、各バッチには 10,000 枚の画像が含まれています。

（18）CompCars：163の自動車ブランドと1,716のモデルが含まれています。各モデルには、最高速度、排気量、ドアの数、座席数、車種の5つの属性が付けられています。

（19）屋内シーン認識データセット：これは非常にユニークなデータセットです。ほとんどのシーン認識モデルは屋外でより優れたパフォーマンスを発揮するため、このデータセットは役立ちます。 67 の屋内カテゴリと合計 15,620 枚の画像が含まれています。

（20）VisualQA：VQAデータセットには、265,016枚の画像に関する自由回答形式の質問が含まれています。これらの質問には、視覚的理解と言語的理解の両方が必要です。各画像には少なくとも 3 つの質問があり、各質問には少なくとも 10 の回答があります。

<<: 「人工知能＋学習」は教育をより良くするのでしょうか？

>>: 2021年も人気が続く5種類のロボット

自動運転自転車が発売されました。これを見た後ではもう運転したくありません！ホットカミング

ブログ

SQL は ChatGPT を実行できますか?答えはYESです！

ブログ

機械学習とコンピュータービジョンのためのトップ 20 画像データセット

自動運転自転車が発売されました。これを見た後ではもう運転したくありません！ホットカミング

SQL は ChatGPT を実行できますか?答えはYESです！

人材管理を改善する人工知能の可能性

VS Code 1.86 バージョンのハイライト: ウィンドウのズームの自由度の向上、AI 音声アシスタントの導入、複数ファイルの差分エディター

Pythonで検索アルゴリズムを実装する方法を教えます

GPT-4 に先んじよう! Microsoft Bingは突然、ミームを読んだり、病気を診断したり、コードを書いたりできる「画像認識」機能をアップグレードした。

産業オペレーションの深化が人工知能コンピューティングセンター構築の鍵

推薦する

コンピューティング技術を変えた偉大なアルゴリズムを数えてみましょう

DevOps で AI を使用して非線形スケーリングを実現する方法

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない

機械学習の実際の応用は何ですか?

上級アーキテクトが初めて秘密を明かす：Toutiao の推奨アルゴリズムの原理を 3 分で学ぶ

今年は人工知能と5Gの急速な共同開発が見られました

インテリジェントオートメーション: ロボティックプロセスオートメーションの未来

人工知能が高齢者の日常生活に影響を与えないようにする

「ロボット革命」は人類社会の発展にどのような影響を与えるのでしょうか？

経験を要約し、進化を続け、インテリジェントエージェントのパラメータを最適化するコストを削減できます。

人工知能がインターネットのパフォーマンスに与える影響