機械学習とコンピュータービジョンのためのトップ 20 画像データセット

機械学習とコンピュータービジョンのためのトップ 20 画像データセット

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。

コンピューター ビジョンにより、コンピューターは画像やビデオの内容を理解できるようになり、人間の視覚システムと同じようにタスクを自動的に完了できるようになります。コンピューター ビジョンのタスクには、画像の取得、処理、分析が含まれます。画像データには、ビデオシーケンス、マルチカメラ画像、医療用スキャナーからの多次元データなど、さまざまな形式があります。この記事では、機械学習のトレーニングに適したデータセットをいくつか紹介します。

[[376002]]

(1)Labelme:MITコンピュータ科学・人工知能研究所(CSAIL)が共同で作成した大規模なデータセット。187,240枚の画像、62,197枚の注釈付き画像、658,992個のラベル付きオブジェクトが含まれています。

(2)ImageNet:新しいアルゴリズムのための現実世界の画像データセット。WordNet階層に従って編成されており、階層内の各ノードは数百または数千の画像で記述されています。

(3)LSUN:シーン理解、多くの補助タスク(部屋のレイアウト推定、顕著性予測など)

(4)MS COCO:COCOは、20万枚以上のラベル付き画像を含む大規模な物体検出、セグメンテーション、キャプション作成データセットです。オブジェクトのセグメンテーション、コンテキストの認識などに使用できます。

(5)コロンビア大学画像ライブラリ:COIL100データセットには、360°で撮影された100種類のオブジェクトが含まれています。

(6)ビジュアルゲノム:構造化された画像概念と言語を結び付けることを目的としたデータセットおよび知識ベースです。このデータセットは、108,077 個の画像キャプションを含む詳細な視覚知識ベースです。

(7)レゴブロック:16種類のレゴブロックの画像約12,700枚がフォルダに整理され、Blenderを使用してコンピュータレンダリングされています。

(8)Google Open Images:クリエイティブ・コモンズで利用可能な、「6,000以上のカテゴリにわたるラベルが付けられた」900万枚の画像のURL。

Open Images データセットからの注釈付き画像。

左: Kevin Krejci による「Ghost Arch」。右: J B. の銀製品の一部。両方の画像は CC BY 2.0 ライセンスの下で使用されています。

(9)Youtube-8M:数百万のYouTube動画IDから構成される大規模なラベル付きデータセットで、3,800以上の視覚的エンティティの注釈が含まれています。

(10)Labelled Faces in the Wild:顔認識関連のアプリケーションの開発を目的とした、ラベル付けされた顔画像13,000枚が含まれています。

(11)スタンフォード犬のデータセット:20,580枚の画像と120種類の犬種が含まれており、カテゴリごとに約150枚の画像があります。

(12)場所:205のシーンカテゴリーとカテゴリーラベル付きの250万枚の画像を含むシーンベースのデータベース。

(13)CelebFaces:20万枚以上の有名人の画像が収録された顔データセット。各画像には40個の属性が付与されている。

CelebFacesデータセットのサンプル画像

(14)花:英国でよく見られる花の画像のデータセット。102の異なるカテゴリで構成されています。各花のカテゴリーは、さまざまなポーズと照明のバリエーションを持つ 40 ~ 258 枚の画像で構成されています。

(15)植物画像解析:100万枚以上の植物画像を収録したデータセットのコレクション。 11種類の植物からお選びいただけます。

(16)家庭内オブジェクト:主にキッチン、バスルーム、リビングルームからの家庭内のランダムなオブジェクトを含むデータセット。トレーニングデータセットとテストデータセットに分かれています。

(17)CIFAR-10:10のカテゴリーに分けられた60,000枚の32×32カラー画像からなる大規模な画像データセット。データセットは 5 つのトレーニング バッチと 1 つのテスト バッチに分かれており、各バッチには 10,000 枚の画像が含まれています。

(18)CompCars:163の自動車ブランドと1,716のモデルが含まれています。各モデルには、最高速度、排気量、ドアの数、座席数、車種の5つの属性が付けられています。

(19)屋内シーン認識データセット:これは非常にユニークなデータセットです。ほとんどのシーン認識モデルは屋外でより優れたパフォーマンスを発揮するため、このデータセットは役立ちます。 67 の屋内カテゴリと合計 15,620 枚の画像が含まれています。

(20)VisualQA:VQAデータセットには、265,016枚の画像に関する自由回答形式の質問が含まれています。これらの質問には、視覚的理解と言語的理解の両方が必要です。各画像には少なくとも 3 つの質問があり、各質問には少なくとも 10 の回答があります。

<<:  「人工知能+学習」は教育をより良くするのでしょうか?

>>:  2021年も人気が続く5種類のロボット

ブログ    
ブログ    
ブログ    

推薦する

...

靴下が山積みになっています。靴下をペアにするには、最も速くて効率的なアルゴリズムをどのように使用すればよいでしょうか?

[問題の説明]昨日、コインランドリーで靴下の山を整理していたのですが、自分が使っていた方法がとても...

顔認識技術の応用の安全管理に関する規定(試行)コメント:1万人以上の顔情報の保管は中国サイバースペース管理局に登録する必要がある

8月8日、IT Homeは中国サイバースペース事務局から、顔認識技術の応用を標準化するため、「中華人...

2024年には、AI PCが目を見張るほど登場するでしょう。企業や消費者はどのように選択すべきでしょうか?

先日開催されたCES 2024カンファレンスでは、AI PC(人工知能コンピュータ)のコンセプトや製...

...

...

...

自動運転列車が完成しました!しかし、あなたは座る勇気がありますか?

すべてが計画通りに進めば、鉱山大手リオ・ティントの貨物列車が8月にコロラド州プエブロ近郊の線路を走り...

データ構造とアルゴリズム: 最小全域木、数秒で理解できます!

[[426679]]序文データ構造とアルゴリズムのグラフ理論において、最小全域木アルゴリズムは、比...

データセンター不足がAIの未来を阻害している理由

多くの企業が AI テクノロジーの開発と導入に数十億ドルを投資しています。知的財産の問題、潜在的な規...

研究により、脳外科手術の訓練においてAIが専門のインストラクターよりも優れていることが判明

COVID-19パンデミックは、医療研修に課題と機会をもたらしています。遠隔学習技術は、さまざまな分...

ストレージパフォーマンスのボトルネックを解消し、AIアプリケーションの迅速な開発を実現

古典的な「樽理論」によれば、樽にどれだけの水が入るかは、一番低い木材によって決まります。 [[397...

2021年の中国サービスロボット産業の発展状況のレビュー

人口の高齢化が加速し、教育に対する需要が引き続き強いことから、中国のサービスロボットは大きな市場潜在...

ChatGPT 以外にも驚くような 6 つの AI ツール

今日の急速に変化する世界では、私たちが日常生活で処理しなければならないデータとタスクの量は膨大です。...