コンピュータビジョンのための 9 つのオープンソース データセット

コンピュータビジョンのための 9 つのオープンソース データセット

[[420140]]

[51CTO.com クイック翻訳]オープンソースデータセットを使用してトレーニングされたコンピュータビジョンモデル

コンピューター ビジョン (CV) は、人工知能 (AI) と機械学習 (ML) の分野で最も興味深いサブフィールドの 1 つです。これは多くの AI および機械学習パイプラインの主要コンポーネントであり、業界を変革し、組織が機械やビジネス システムの動作方法を完全に変えることを可能にします。

学術的に言えば、コンピューター ビジョンは数十年にわたってコンピューター サイエンスの成熟した分野であり、長年にわたり、この分野をより洗練されたものにするために多くの研究が行われてきました。しかし、最近ではディープニューラルネットワークの使用がこの分野に革命をもたらし、急速な成長に新たな推進力を与えています。

コンピューター ビジョンには、次のようなさまざまな応用分野があります。

  • 自動運転。
  • 医療画像の分析と診断。
  • シーンの検出と理解。
  • 画像のキャプションを自動的に生成します。
  • ソーシャルメディアでの写真/顔のタグ付け。
  • 家族の安全。
  • 製造および品質管理における欠陥の特定。

この記事では、コンピューター ビジョン タスクを実行する高度な機械学習システムをトレーニングするためにディープラーニングの分野で使用されている、最も人気があり効果的なデータセットのいくつかについて説明します。

適切なオープンソースデータセットを選択する方法

画像ファイルやビデオファイルでマシンをトレーニングすることは、非常に複雑でデータ集約的な操作です。単一の画像ファイルは、多次元、数メガバイトのデジタルエンティティであり、「インテリジェント画像分析」ミッションの全体的なシナリオにおける「洞察」のほんの一部しか含まれていません。

対照的に、同様のサイズの小売販売データ テーブルは、同じコンピューティング ハードウェア上の機械学習アルゴリズムに、はるかに多くの洞察を提供できます。この事実は、最新のコンピューター ビジョン パイプラインに必要なデータとコンピューティングの規模について話すときに念頭に置くことが重要です。

したがって、ほとんどの場合、コンピューター ビジョン タスク用の高品質の機械学習モデルをトレーニングするには、数百または数千枚の画像だけでは不十分です。ほぼすべての最新のコンピューター ビジョン システムは、慎重に選択されたトレーニング サンプル (ラベル付けされた画像など) が十分な数提供されない場合、適合不足に悩まされる複雑なディープラーニング モデル アーキテクチャを使用しています。その結果、堅牢で一般化可能、かつ実稼働品質のディープラーニング システムでは通常、トレーニング用に慎重にキュレーションされた数百万枚の画像が必要になるというのが一般的な傾向になりつつあります。

さらに、ビデオ分析の場合、多数のビデオ ストリームから取得されたビデオ ファイルまたはフレームの動的な性質を考慮すると、トレーニング データセットを選択してコンパイルするタスクはさらに複雑になる可能性があります。

この記事では、最も人気のある写真(静止画像とビデオクリップで構成)をいくつか紹介します。

コンピュータービジョンモデル用の人気のオープンソースデータセット

すべてのデータセットがさまざまなコンピューター ビジョン タスクに等しく適しているわけではありません。一般的なタスクには次のようなものがあります。

  • 画像分類。
  • 物体検出。
  • オブジェクトのセグメンテーション。
  • 複数オブジェクトの注釈。
  • 画像のキャプション。
  • 人間の姿勢の推定。
  • ビデオフレーム分析。

ほとんどのカテゴリをカバーする人気のオープンソースデータセットを以下に紹介します。

1. ImageNet(最も有名)

ImageNet は、世界中の研究者が簡単にアクセスできる画像データベースを提供するための継続的な研究活動です。これはおそらく世界で最も有名な画像データセットであり、研究者や学習者からはゴールドスタンダードとして引用されています。

このプロジェクトは、画像および視覚研究の分野におけるニーズの高まり、つまりより多くのデータの必要性に触発されて生まれました。 WordNet 階層に従って編成されています。 WordNet 内の意味のある各概念は、複数の単語またはフレーズで記述される可能性があり、これらは「synset」と呼ばれます。 WordNet には 100,000 を超える synset があります。同様に、ImageNet は各シンセットを説明するために平均 1000 枚の画像を提供することを目指しています。

ImageNet Large Scale Visual Recognition Challenge (ILSVRC) は、大規模な物体検出と画像分類のためのアルゴリズム (大学や企業の研究グループのチームによって提出されたもの) を評価する、毎年開催される世界的なコンテストです。主な動機の 1 つは、研究者が、かなり高価なラベル付け作業を活用して、より広範囲のオブジェクトの検出の進捗状況を比較できるようにすることです。もう 1 つの動機は、検索と注釈付けのための大規模な画像インデックス作成におけるコンピューター ビジョンの進歩を測定することです。これは機械学習の分野で最も注目される年次コンテストの一つです。

2. CIFAR-10(初級)

これは、コンピューター ビジョン分野の初心者が機械学習やコンピューター ビジョン アルゴリズムをトレーニングするためによく使用する画像のコレクションです。また、トレーニングやハイパーパラメータ調整のプロセスに過度の計算負荷をかけずに、特定のアーキテクチャの弱点と強みを把握できるため、アルゴリズムをすばやく比較するための機械学習研究で最も人気のあるデータセットの 1 つでもあります。

10 種類のカテゴリから 60,000 枚の 32×32 ピクセルのカラー画像が含まれています。これらのクラスは、飛行機、車、鳥、猫、鹿、犬、カエル、馬、船、トラックを表します。

3. MegaFaceとLFW(顔認識)

Labeled Faces in the Wild (LFW) は、制約のない顔認識の問題を研究するために設計された顔写真データベースです。ウェブからクロールされ検出された 5,749 人の人物の画像 13,233 枚が含まれています。追加の課題として、機械学習の研究者は、データセット内に 2 枚以上の異なる写真がある 1,680 人の人物の画像にアクセスしました。したがって、これは顔認証の一般的なベンチマークであり、ペアワイズマッチング(同一人物の画像が少なくとも 2 つ必要)としても知られています。

MegaFace は、大規模なオープンソースの顔認識トレーニング データセットであり、商用の顔認識問題に対する最も重要なベンチマークの 1 つです。 672,057 人の 4,753,320 個の顔が含まれており、大規模なディープラーニング アーキテクチャのトレーニングに最適です。すべての画像は Flickr (Yahoo のデータセット) から取得したもので、コモンズ ライセンスに基づいてライセンスされています。

4.IMDB-Wiki(性別と年齢の識別)

これは、トレーニング用の性別と年齢のラベルが付いた顔画像の最大のオープンソース データセットの 1 つです。このデータセットには合計 523,051 枚の顔画像が含まれており、そのうち 460,723 枚の顔画像は IMDB の 20,284 人の著名人と Wikipedia の 62,328 人の著名人のものです。

5. MSCoco(オブジェクトの検出とセグメンテーション)

Common Objects in CONtext (COCO) は、大規模なオブジェクト検出、セグメンテーション、キャプション作成データセットです。このデータセットには、簡単に識別できる 91 種類のオブジェクトの写真が含まれており、328,000 枚の画像に合計 250 万のラベル付きインスタンスが含まれています。さらに、マルチオブジェクトのラベル付け、セグメンテーション マスクの注釈付け、画像のキャプション付け、キーポイントの検出など、より複雑なコンピューター ビジョン タスクのためのリソースも提供します。 COCO での注釈の読み込み、解析、視覚化に役立つ直感的な API によって十分にサポートされています。 API は複数の注釈形式をサポートしています。

6.MPII 人間の姿勢(姿勢推定)

このデータセットは、人間の関節ポーズ推定を評価するために使用されます。これには、体の関節に注釈が付けられた、40,000 人以上の人物の約 25,000 枚の画像が含まれています。ここでは、各画像は YouTube ビデオから抽出され、前のフレームと次のフレームの注釈なしフレームが提供されます。合計で、データセットは 410 件の人間の活動をカバーしており、各画像には活動ラベルが付けられています。

7. Flickr-30k (画像キャプション)

これは、31,783 枚の画像を説明する 158,915 個のクラウドソーシングされたキャプションで構成された画像キャプション コーパスです。これは以前の Flickr 8k データセットの拡張です。新しい画像とキャプションは、日常の活動やイベントに関わる人物に焦点を当てています。

8.20BN-SOMETHING-SOMETHING(人間の行動のビデオクリップ)

このデータセットは、日常の物体に対して人間が事前に定義された基本的な動作を実行している様子を示す、高密度にラベル付けされたビデオ クリップの大規模なコレクションです。大規模な作業者グループによって作成されたこの技術により、機械学習モデルは物理世界で発生する基本的な動作を詳細に理解できるようになります。

以下は、このデータセットでキャプチャされた一般的な人間の活動のサブセットです。

9. Barkley DeepDrive(自動運転車のトレーニング用)

カリフォルニア大学バークレー校の Berkeley DeepDrive データセットには、オブジェクトの境界ボックス、走行可能エリア、画像レベルのラベル付け、車線標示、フルフレームのインスタンスのセグメンテーションなど、さまざまな注釈が付いた 100,000 を超えるビデオ シーケンスが含まれています。さらに、データセットはさまざまな地理的、環境的、気象的条件を表現する点で多様性に富んでいます。

これは、道路や運転状況の変化によって自動運転システムが混乱しないように、自動運転車用の強力なモデルをトレーニングするのに役立ちます。

データセットに適したハードウェアとベンチマーク

言うまでもなく、これらのデータセットを単に持っているだけでは、高品質の機械学習システムやビジネス ソリューションを構築するには不十分です。学術的または商業的な問題に対する最善のソリューションを得るには、データセット、トレーニング ハードウェア、巧みなチューニングおよびベンチマーク戦略の適切な選択が必要です。

このため、必要なパフォーマンスを提供するために、これらのデータセットには高性能 GPU がほぼ常に組み合わせて使用​​されます。

GPU は、数千個の小さなプロセッサを使用して大規模な並列コンピューティングを実行するために (主にビデオ ゲーム業界向けに) 開発されました。また、ニューラル ネットワークを集中的にトレーニングする場合により多くの計算を必要とする高速データ ストリーム (処理ユニットが低速のメイン メモリにキャッシュし、その逆も行う) を処理するための大きなメモリ帯域幅も備えています。これにより、コンピューター ビジョン タスクの計算負荷を処理するための理想的なハードウェアになります。

ただし、市場には多くの GPU が存在し、この点に関して潜在的なユーザーを導くための優れたベンチマーク戦略がすでに市場に存在しています。優れたベンチマークでは、ディープ ニューラル ネットワーク (DNN) アーキテクチャ、GPU、広く使用されているデータセットなど、複数のタイプを考慮する必要があります。

たとえば、優れた記事では次の点を考慮します。

  • アーキテクチャ: ResNet-152、ResNet-101、ResNet-50、および ResNet-18。
  • GPU: EVGA RTX2080ti、Gigabyte RTX2080ti、NVIDIA TITAN RTX。
  • データセット: ImageNet、CIFAR-100、CIFAR-10。

さらに、適切なベンチマークを取得するには、パフォーマンスの複数の側面を考慮する必要があります。

考慮すべき GPU パフォーマンスには、主に 3 つの側面があります。

(1)第2バッチ時間:第2バッチのトレーニングを完了するのにかかる時間。この数値は、以前のパフォーマンスを向上させるために GPU が実行されていた時間を測定します。 GPU の熱スロットリングは考慮されません。

(2)平均バッチ処理時間:ImageNetでは1エポック後、CIFARでは15エポック後の平均バッチ処理時間。 GPU の熱スロットリングが考慮されます。

(3)同期平均バッチ処理時間:すべてのGPUを同時に実行し、ImageNetでは1エポック後、CIFARでは15エポック後の平均バッチ処理時間。これは、システム内で熱スロットリング効果を引き起こすすべての GPU から放出される熱を測定​​します。

コンピューター ビジョン モデルに最適なオープン ソース データセットはどれですか?

この論文では、コンピューター ビジョン アプリケーションでますます人気が高まっている複雑なディープ ニューラル ネットワーク (DNN) モデルをトレーニングするために、高品質でノイズのない大規模なデータセットを取得する必要性について説明します。

また、画像分類、姿勢推定、画像キャプション作成、自動運転、オブジェクトセグメンテーションなど、さまざまな種類のコンピュータービジョンタスクに広く使用されている複数のオープンソースデータセットの例も示されています。

最後に、これらのデータセットを適切なハードウェアおよびベンチマーク戦略と組み合わせ、商業および研究開発の両方のコンテキストで最適に使用する必要性について説明します。

原題: Open Source Datasets for Computer Vision、著者: Kevin Vu

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  テクノロジーの到来: 人工知能が家具​​デザインに与える影響

>>:  スマートドライビングが誕生してから10年経った今、なぜ理想的なビジネスモデルの実現が難しいのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

MITとHKUは、Transformerを超える精度を持つ物理モデルに基づく視覚推論フレームワークを提案

[[437809]]動的視覚推論、特にオブジェクト間の物理的な関係についての推論は、コンピューター ...

楊振:ビッグデータとAI技術の発展の観点から、クロスチェーン技術は必要かつ不可避である

著者: 楊振、上級ソフトウェアエンジニア、アーキテクト、独立講師。ソフトウェア開発経験18年。『Et...

ディープラーニング プラットフォームとして、TPU、GPU、CPU のどれが優れているでしょうか?誰かがベンチマーク調査を行った

GPU、TPU、CPU はすべてディープラーニング モデルのトレーニングに使用できますが、これらの各...

GPUパフォーマンスを最大化

AI プロジェクトを高速化するためのデフォルトのアプローチは、GPU クラスターのサイズを増やすこと...

今日のデータとAI市場における不確実性にどう対処するか

データ分析と人工知能 (AI) 市場に関するニュースをフォローしている人なら誰でも、過去数年間で多く...

AI アバターが CES に登場! Samsung の Neon チャットボットは学習、進化、記憶が可能です!

サムスンの待望のスマートヒューマンプロジェクト「Neon」が、ついにCES 2020でデビューしまし...

人工知能は私たちに何をもたらしてくれるのでしょうか?人工知能は非常に強力です

人工知能は皆さんにとって馴染み深いものかもしれませんが、では人工知能は一体何ができるのでしょうか?本...

ドキュメント内の単語が増えるほど、モデルは興奮します。 KOSMOS-2.5: テキストが密集した画像を読み取るためのマルチモーダル大規模言語モデル

注目すべき傾向は、印象的な言語出力を生成できる、数百億/数千億のパラメータを備えた、より大規模で複雑...

MLP は視覚研究に潜在的な驚きをもたらすでしょうか?最近のMLP画像分類作業の概要と分析

画像分類は、コンピューター ビジョン研究において常に非常に基本的で重要なタスクです。過去 10 年間...

百度は「ニューラル条件付きランダムフィールド」病理スライス分析アルゴリズムをオープンソース化、専門病理学者よりも高い精度を実現

最近、百度研究所は論文で「ニューラル条件付きランダムフィールド」病理スライス分析アルゴリズムを提案し...

人工知能が中小企業にもたらす5つのメリット

[[328993]] 【51CTO.com クイック翻訳】 AI 市場のトレンドはどのくらいの速さで...

マイクロソフトはOpenAIの警告を無視し、未熟なBingチャットサービスを開始したと報じられている。

6月14日、マイクロソフトのBing人工知能チャットボットは、最初にリリースされた際に論争と混乱を...

...