ディープラーニングによる画像セグメンテーション：手法と応用

人工知能とディープラーニング手法に基づく現代のコンピュータービジョン技術は、過去 10 年間で目覚ましい進歩を遂げました。現在、画像分類、顔認識、画像内のオブジェクトの識別、ビデオ分析と分類、ロボットや自律走行車の画像処理などのアプリケーションに使用されています。

多くのコンピュータービジョンタスクでは、画像の内容を理解し、各部分の分析を容易にするために、画像をインテリジェントに分割する必要があります。今日の画像セグメンテーション技術では、コンピュータービジョンのディープラーニングモデルを使用して、画像の各ピクセルが表す現実世界のオブジェクトを理解します。これは 10 年前には想像もできなかったことです。

ディープラーニングは視覚入力のパターンを学習し、画像を構成するオブジェクトのクラスを予測できます。画像処理に使用される主なディープラーニングアーキテクチャは、畳み込みニューラルネットワーク (CNN)、または AlexNet、VGG、Inception、ResNet などの特定の CNN フレームワークです。コンピュータービジョン用のディープラーニングモデルは、計算時間を短縮するために、専用のグラフィックスプロセッシングユニット (GPU) でトレーニングおよび実行されることがよくあります。

画像セグメンテーションとは何ですか?

画像のセグメンテーションは、コンピュータービジョンにおける重要なプロセスです。画像分析を簡素化するために、視覚入力をセグメントに分割します。フラグメントはオブジェクトまたはオブジェクトの一部を表し、ピクセルまたは「スーパーピクセル」のセットで構成されます。画像セグメンテーションでは、ピクセルをより大きな部分に編成し、個々のピクセルを観察単位として考慮する必要がなくなります。画像分析には 3 つのレベルがあります。

分類 - 画像全体を「人物」、「動物」、「屋外」などのカテゴリに分類します。
オブジェクト検出 - 画像内の人物や羊などのオブジェクトを検出し、その周囲に四角形を描画します。
セグメンテーション - 画像の一部を識別し、それがどのオブジェクトに属しているかを理解しします。セグメンテーションは、オブジェクトの検出と分類の基礎となります。

セマンティックセグメンテーションとインスタンスセグメンテーション

セグメンテーションプロセス自体には、次の 2 つの粒度レベルがあります。

セマンティックセグメンテーション - 画像内のすべてのピクセルを意味のあるオブジェクトクラスに分割します。これらのクラスは「意味的に解釈可能」であり、現実世界のカテゴリに対応します。たとえば、猫に関連付けられたすべてのピクセルを分離して緑色にすることができます。これは各ピクセルの意味を予測するため、高密度予測とも呼ばれます。

インスタンスセグメンテーション - 画像内のすべてのオブジェクトのすべてのインスタンスを識別します。各ピクセルを分類しないという点で、セマンティックセグメンテーションとは異なります。画像に 3 台の車がある場合、セマンティックセグメンテーションではすべての車を 1 つのインスタンスとして分類し、インスタンスセグメンテーションでは各車を識別します。

従来の画像セグメンテーション方法

過去によく使用されてきた画像セグメンテーション技術もいくつかありますが、厳密なアルゴリズムを使用し、人間の介入と専門知識が必要となるため、ディープラーニング技術ほど効率的ではありません。これらには以下が含まれます:

しきい値設定 - 画像を前景と背景に分割します。指定されたしきい値は、ピクセルを 2 つのレベルのいずれかに分類してオブジェクトを分離します。しきい値設定は、グレースケール画像をバイナリ画像に変換したり、カラー画像の明るいピクセルと暗いピクセルを区別したりします。
K 平均法クラスタリング - このアルゴリズムはデータ内のグループを識別し、変数 K はグループの数を表します。アルゴリズムは、特徴の類似性に基づいて、各データポイント (またはピクセル) をこれらのグループのいずれかに割り当てます。クラスタリングは、事前に定義されたグループを分析するのではなく、グループが有機的に形成されるように反復的に機能します。
ヒストグラムベースの画像セグメンテーション - ヒストグラムを使用して、ピクセルを「グレースケール」に基づいてグループ化します。シンプルな画像は、オブジェクトと背景で構成されます。背景は通常グレースケールで、より大きなエンティティです。したがって、ヒストグラムでは、ピークが大きいほど背景のグレースケールを表します。小さいピークはオブジェクトを表し、別のグレーレベルになります。
エッジ検出 - 明るさの急激な変化や不連続性を識別します。エッジ検出では通常、不連続部分を曲線セグメントまたはエッジに配置する必要があります。たとえば、赤いブロックと青いブロックの境界。

ディープラーニングが画像セグメンテーション手法にどのように役立つか

最新の画像セグメンテーション技術は、ディープラーニング技術を活用しています。セグメンテーションのためのディープラーニングアーキテクチャをいくつか紹介します。

CNN を画像セグメンテーションに使用するには、画像パッチを畳み込みニューラルネットワークへの入力として入力し、畳み込みニューラルネットワークがピクセルにラベルを付けます。 CNN は画像全体を一度に処理することはできません。画像全体をマッピングするまで、一度に数ピクセルで構成された小さな「フィルター」を調べながら画像をスキャンします。

従来の CNN ネットワークは完全に接続したレイヤーを持ち、異なる入力サイズを処理できません。 FCN は畳み込み層を使用してさまざまなサイズの入力を処理し、より高速に動作できます。最終出力層には、画像の高さと幅に対応する大きな受容野があり、チャネルの数はクラスの数に対応します。畳み込み層は各ピクセルを分類して、オブジェクトの位置を含む画像のコンテキストを決定します。

アンサンブル学習は、2 つ以上の関連する分析モデルの結果を 1 つに結合します。アンサンブル学習により予測精度が向上し、一般化誤差が削減されます。これにより、画像を正確に分類および分割できるようになります。アンサンブル学習は、単一の最適な学習者を作成しようとするのではなく、画像の一部を分類してその出力を組み合わせる一連の弱い基本学習者を生成しようとします。

DeepLab DeepLab を使用する主な目的の 1 つは、信号抽出を制御しながら画像のセグメンテーションを実行し、サンプル数とネットワークが処理しなければならないデータ量を削減することです。もう 1 つの動機は、マルチスケールのコンテキスト特徴学習、つまり異なるスケールの画像から特徴を集約できるようにすることです。 DeepLab は、特徴抽出に ImageNet 事前トレーニング済み ResNet を使用します。 DeepLab は通常の畳み込みではなく、拡張畳み込みを使用します。各畳み込みの異なる拡張率により、ResNet ブロックはマルチスケールのコンテキスト情報を取得できます。 DeepLab は 3 つの部分で構成されています。

Atrous 畳み込み — 畳み込みフィルターの視野を拡大または縮小する係数を使用します。
ResNet — Microsoft の Deep Convolutional Network (DCNN)。パフォーマンスを維持しながら何千ものレイヤーをトレーニングできるフレームワークを提供します。 ResNet の強力な表現機能により、物体検出や顔認識などのコンピュータービジョンアプリケーションの開発が促進されました。
Atrous 空間ピラミッドプーリング (ASPP) — マルチスケール情報を提供します。さまざまな拡張率を持つ一連の複雑な関数を使用して、幅広いコンテキストをキャプチャします。 ASPP は、グローバル平均プーリング (GAP) を使用して、画像レベルの機能を組み込み、グローバルなコンテキスト情報を追加します。

SegNet ニューラルネットワークセマンティックピクセルセグメンテーションとも呼ばれる、ディープエンコーダーとデコーダーをベースとしたアーキテクチャ。入力画像を低次元でエンコードし、その後、方向不変機能を使用してデコーダーで画像を復元します。次に、デコーダー側でセグメント化された画像が生成されます。

画像セグメンテーションの応用

画像セグメンテーションは、画像内のオブジェクトとそのコンテキスト間の関係を判断するのに役立ちます。アプリケーションには、顔認識、ナンバープレート認識、衛星画像分析などがあります。たとえば、小売業やファッションなどの業界では、画像ベースの検索で画像セグメンテーションを使用しています。自動運転車は周囲の状況を把握するためにこれを利用します。

物体検出と顔検出

これらのアプリケーションには、デジタル画像内の特定のクラスのオブジェクトのインスタンスを識別することが含まれます。セマンティックオブジェクトは、顔、車、建物、猫などのクラスに分類できます。

顔検出 - 生体認証やデジタルカメラのオートフォーカス機能など、多くのアプリケーションで使用されるオブジェクト検出の一種。アルゴリズムは顔の特徴の存在を検出し、検証します。たとえば、グレースケール画像では目は谷として表示されます。
医療画像 - 医療画像から臨床的に関連する情報を抽出します。たとえば、放射線科医は機械学習を使用して、画像をさまざまな臓器、組織の種類、または病気の症状に分割することで分析を強化できます。これにより、診断テストの実行に必要な時間を短縮できます。
マシンビジョン - 機器の操作をガイドするために画像をキャプチャして処理するアプリケーション。これには、産業用アプリケーションと非産業用アプリケーションの両方が含まれます。マシンビジョンシステムは、特殊なカメラのデジタルセンサーを使用して、コンピューターのハードウェアとソフトウェアが画像を測定、処理、分析できるようにします。たとえば、検査システムはソーダボトルの写真を撮影し、合否基準に基づいて画像を分析して、ボトルに適切に充填されているかどうかを判断します。

ビデオ監視 - ビデオ追跡と移動物体追跡

これには、ビデオ内の移動オブジェクトの位置を特定することが含まれます。その用途には、セキュリティと監視、交通管制、人間とコンピュータの相互作用、ビデオ編集などがあります。

自動運転車が安全に運転するためには、周囲の環境を認識し、理解できなければなりません。関連するカテゴリのオブジェクトには、他の車両、建物、歩行者が含まれます。セマンティックセグメンテーションにより、自動運転車は画像内のどのエリアを安全に運転できるかを識別できるようになります。
虹彩認識は、複雑な虹彩パターンを認識できる生体認証技術です。自動パターン認識を使用して、人間の目に合わせてビデオ画像を分析します。
顔認識により、ビデオから個人を識別します。この技術は、入力画像から選択された顔の特徴をデータベース内の顔と比較します。

小売業の画像認識

このアプリにより、小売業者は棚の商品のレイアウトを把握できるようになります。アルゴリズムは製品データをリアルタイムで処理し、商品が棚にあるかどうかを検出します。商品が在庫切れの場合は、その理由を調べて販売員に通知し、サプライチェーンの適切な部分に解決策を提案できます。

<<: 2021年のAIに関する10の大胆な予測の科学的分析学術見出し

>>: 先頭に立つ！ 16人の学際的な専門家がAIの次の10年について語る