コンピュータービジョン: 画像検出と画像セグメンテーションの違いは何ですか?

コンピュータービジョン: 画像検出と画像セグメンテーションの違いは何ですか?

人工知能における画像処理

人工知能には画像処理のためのさまざまなタスクがあります。この記事では、物体検出と画像セグメンテーションの違いについて説明します。

どちらのタスクでも、画像内の興味のあるアイテムの位置を見つけたいと考えています。たとえば、防犯カメラの写真のセットがあり、それぞれの写真に写っているすべての人の位置を特定したいとします。

これには通常、オブジェクト検出と画像セグメンテーションという 2 つの方法を使用できます。

物体検出 - 予測された境界ボックス

物体検出について話すとき、通常は境界ボックスについて話します。これは、画像処理によって写真内の各人物の周囲の四角形が識別されることを意味します。

境界線は通常、左上隅の位置 (2 つの座標) と幅および高さ (ピクセル単位) によって定義されます。

Open Image Dataset からの注釈付き画像。雪だるまを作る家族、mwvchamberより。画像はCC BY 2.0ライセンスに基づいて使用されています。

ターゲット検出方法を理解するには?

画像内のすべての人物を識別するというタスクに戻ると、境界ボックスによるオブジェクト検出のロジックを理解できます。

私たちの頭に最初に浮かんだ解決策は、画像を細かく切り分け、各サブ画像に画像分類を適用して、その画像が人間であるかどうかを区別することでした。 単一の画像を分類することはより簡単な作業であり、物体検出の重要な側面の 1 つであるため、この段階的なアプローチを採用しました。

現在、YOLO モデル (You Only Look Once) がこの問題を解決するための素晴らしい発明です。 YOLO モデルの開発者は、バウンディング ボックス メソッド全体を一度に実行できるニューラル ネットワークを構築しました。

物体検出のための現在の最先端モデル

  • YOLO
  • より高速なRCNN

画像セグメンテーション - マスクの予測

画像を段階的にスキャンする代わりに、絵画のフレームから離れて、画像にピクセル単位で注釈を付けるという論理的な方法もあります。

これを行うと、基本的には入力画像を変換した、より詳細なモデルが得られます。

画像セグメンテーション手法を理解するにはどうすればよいでしょうか?

アイデアは非常に基本的なものです。製品のバーコードをスキャンする場合でも、アルゴリズムを適用して入力情報を変換し(さまざまなフィルターを適用することにより)、バーコードシーケンス以外のすべての情報が最終画像に表示されないようにすることができます。


左の画像: https://commons.wikimedia.org/wiki/File:Image-segmentation-example.jpg。右の画像: https://commons.wikimedia.org/wiki/File:Image-segmentation-example-segmented.png.どちらのファイルも https://en.wikipedia.org/wiki/en:Creative_Commons をサポートしています

これは画像上のバーコードを見つけるための基本的な方法ですが、画像セグメンテーションで行われることと似ています。

画像セグメンテーションの戻り形式はマスクと呼ばれます。これは、元の画像と同じサイズの画像ですが、各ピクセルには、オブジェクトが存在するかどうかを示すブール値のみが含まれます。

複数のカテゴリを許可すると、より複雑になります。たとえば、ビーチの景色を空気、海、砂の 3 つのカテゴリに分類できるようになります。

画像セグメンテーションに最適なモデル

  • マスクRCNN
  • ユネット
  • セグネット

比較の概要

物体検出

  • 入力は、ピクセルあたり3つの値(赤、緑、青)を持つマトリックス(入力画像)、または白黒の場合はピクセルあたり1つの値を持つマトリックス(入力画像)です。
  • 出力は左上隅とサイズで定義された境界ボックスのリストです。

画像セグメンテーション

  • 入力は、ピクセルあたり3つの値(赤、緑、青)を持つマトリックス(入力画像)、または白黒の場合はピクセルあたり1つの値を持つマトリックス(入力画像)です。
  • 出力は、指定されたクラスを含む各ピクセルの値を持つマトリックス (マスク イメージ) です。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

<<:  人工知能と機械学習技術がビジネス開発を推進

>>:  ディープラーニングのコードを信頼できるのはなぜでしょうか?

ブログ    
ブログ    

推薦する

模倣学習: ロボットはプログラミングなしで自然言語を理解できます!

人間が日常のコミュニケーションで話す自然言語の指示を使用して、ロボットアームにタスクを実行するよう指...

AI界のお笑い王に100万の賞金!北京郵電大学、南洋理工大学などが「砂像動画」データセットを公開 FunQA:アルゴリズムで人間のユーモアを学習

人は直感に反する動画(ユーモラスで独創的で視覚的に魅力的な動画)から容易に喜びを得ることができます。...

「初の常温常圧超伝導体」に対する共同研究者の反応:内容に欠陥あり

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能の世界的競争が激化する中、主導権を握るのは中国か米国か?

世界的な技術競争において、人工知能は他の追随を許さない世界的な技術革新の新たな局面において、人工知能...

...

個人情報を使って死者をデジタルで蘇らせるロボットを作る

[[378336]]死者を生き返らせるというのは非常に神秘的に聞こえますが、技術の進歩により、科学者...

...

エアコンピューティング、高度に発達した人工知能を備えた未来の世界

インターネット技術の急速な発展に伴い、「クラウド コンピューティング」や「フォグ コンピューティング...

MITが「計算能力」に関する警告を発令:ディープラーニングは計算能力の限界に近づいている

ディープラーニングの人気は、基本的に人々の計算能力の追求によるものです。最近、MIT は警告を発しま...

OpenAI の「地震」の中心人物である Ilya を見てみましょう。彼は AI についてどう考えているのでしょうか?

OpenAIのCEOサム・アルトマン氏は先週金曜日に解雇され、もはや同社を率いていない。投資家たち...

AIと5Gを組み合わせてIoTの収益を最大化する方法

[[402984]]研究によると、人工知能と 5G テクノロジーを組み合わせることで、通信会社は I...

人工知能と機械学習における13の共通概念

[[422893]] 01 人工知能アラン・チューリングは人工知能を次のように定義しました。カーテン...

すべてがAI+になる新しい形の人工知能があなたを待っています

人工知能技術は急速に発展し、人々の生活に微妙な影響を与えています。掃除ロボット、調理ロボット、配達ロ...

AIシステムのセキュリティテストのための自動化ツール

高度なサイバー攻撃が増加していることから、サイバーセキュリティは今日マイクロソフトにとって最優先事項...

2021 年の機械学習の 6 つのトレンド

機械学習は今日ではよく知られた革新的な技術となっています。ある調査によると、現在人々が使用しているデ...