5種類の画像注釈の紹介

5種類の画像注釈の紹介

[[341366]]

[51CTO.com クイック翻訳] 画像内のさまざまなグラフィック領域の注釈情報を見つけるように求められたことはありませんか? 人工知能 (AI) と機械学習 (ML) が普及している今日の環境では、さまざまな AI 開発者や研究者は、プロジェクトの目標を達成するために大量の高品質データにアクセスする必要があります。同時に、「データは王様」という概念が人々の心に深く根付いており、「データがなければ、いわゆるデータサイエンスは存在しない」とも言えます。現在、機械学習の主な応用分野の一つは、コンピュータービジョンで大量の画像に注釈を付けて実用的な画像データにする必要性です。

この記事では、画像注釈の概念と種類について、次の観点から説明します。

  • コンピュータービジョンとは何ですか?
  • 画像注釈とは何ですか?
  • 2D バウンディング ボックス
  • 3D 境界ボックス/直方体
  • ポリゴン
  • 線とスプライン
  • セマンティックセグメンテーション

コンピュータービジョンとは何ですか?

AI研究開発の重要な分野であるコンピュータービジョンは、コンピューターが環境や状態を「見て」解釈できるようにすることを目的としています。自動運転車からドローン調査、医療診断、顔認識や識別まで、コンピューター ビジョンは実際のアプリケーションで大きな役割を果たしています。

人間の視覚機能をうまく模倣または上回るためには、コンピューター ビジョンは、対象デバイスの開発および処理中に、画像注釈を実現するための多数のモデルをトレーニングする必要があります。

画像注釈とは何ですか?

画像注釈は、画像にラベルを追加するプロセスです。目標は、画像全体に 1 つのラベルのみを使用することから、画像内のピクセルのグループに複数のラベルを割り当てることまで多岐にわたります。簡単な例としては、さまざまな動物の電子画像を幼児に提供するとき、各画像に正しい動物の名前を記入しておけば、幼児は画像に触れたときにその名前を覚えることができます。もちろん、具体的な注釈方法は、実際のプロジェクトで使用される画像注釈の種類によって異なります。場合によっては、マップ アプリを通じて収集されたグラウンド トゥルース データを、注釈付き画像として対応するコンピューター ビジョン アルゴリズムに取り込むことができます。繰り返しトレーニングを行うことで、モデルはラベル付きのエンティティとラベルなしの画像を区別できるようになります。

最も一般的な画像注釈の種類

上記の例は非常に単純です。自動運転などの分野では、より複雑な画像注釈やコンピューター ビジョン テクノロジが使用されます。では、どの画像注釈タイプが現在のプロジェクトに適しているかは、どうすればわかるのでしょうか。以下では、一般的な 5 つの画像注釈タイプと、それらの関連アプリケーションを紹介します。

1.2D バウンディングボックス

2D 境界ボックス注釈では、人間の注釈者に画像が与えられ、画像内の特定のオブジェクトの周囲にボックスを描画するタスクが与えられます。境界線はオブジェクトの各端にできるだけ近づける必要があります。この作業は、さまざまな企業のカスタム プラットフォーム上で実行されることがよくあります。プロジェクトに固有の要件がある場合、サービス会社は既存のプラットフォームを適応させてそれらのニーズを満たすことができます。

バウンディング ボックスの典型的な用途は、自動車の自動運転の開発です。注釈者は、キャプチャされた交通画像内の車両、歩行者、自転車などのエンティティを識別し、それらの周囲に境界ボックスを描画する必要があります。そのため、開発者は、境界ボックスで注釈が付けられた画像を機械学習モデルに提供し、自律走行車がさまざまなエンティティを区別し、リアルタイムで接触を回避できるようにします。

2.3D 直方体

境界ボックスと同様に、3D 直方体注釈はステレオ画像内のオブジェクトを識別し、その周囲に境界ボックスを描画します。長さと幅のみを表す 2D 境界ボックスとは異なり、3D 直方体はオブジェクトの長さ、幅、およびおおよその深さを注釈します。

3D 直方体注釈を使用すると、注釈者は対象のオブジェクトを囲むボックスを描画し、オブジェクトの各エッジにアンカー ポイントを配置できます。オブジェクトのエッジが見えない場合、または画像内の別のオブジェクトによって隠されている場合、アノテーターはオブジェクトのサイズと高さ、および画像の角度に基づいてエッジの位置を推定します。

3. ポリゴン

場合によっては、照明や角度などの理由により、画像内のオブジェクトの形、サイズ、または向きが 2D 境界ボックスや 3D 直方体にうまく適合しないことがあります。同時に、開発者は、交通画像内の車や航空画像内のランドマークとなる建物など、画像内のオブジェクトに、より正確に注釈を付けたいと考えています。このような場合、注釈用のポリゴンを選択する必要がある場合があります。

ポリゴンを使用する場合、注釈者は注釈を付けるオブジェクトの外縁の周囲に複数の点を配置​​して線を描きます。このプロセスは、子供の頃に遊んだ「点をつなげて輪郭を描く」練習に少し似ています。これに基づいて、事前に決定されたエンティティ カテゴリ (車、自転車、トラックなど) のセットを使用して、これらの点と線で囲まれた領域内の空間に注釈を付けます。さらに、複数のクラスを割り当てる場合、マルチクラスアノテーションと呼ばれます。

4. 線とスプライン

線とスプラインはさまざまな目的に使用できますが、ここでは主に、車線とその境界を認識できるように運転システムをトレーニングするために使用されます。名前が示すように、タグ付け機能は、確立された機械学習パスに沿って境界線を描画するだけです。道路と歩道をマークすることで、自動運転システムが境界線を理解し、車線を越えたり車線を逸れたりしないように車線内に留まるように訓練することができます。

線とスプラインは、倉庫内のロボットが箱をきれいに積み重ねたり、コンベアベルトにアイテムを正確に置いたりできるようにトレーニングするためにも使用できます。

5. セマンティックセグメンテーション

描画されたオブジェクトの外縁(または境界)に主に焦点を当てた上記の分類とは異なり、セマンティックセグメンテーションはより正確で具体的です。これは、画像全体のすべてのピクセルにラベルを関連付けるプロセスです。セマンティックセグメンテーションを必要とするプロジェクトでは、通常、人間の注釈者に定義済みのラベルのセットを提供して、ラベルを付ける対象を選択できるようにします。

セマンティック セグメンテーションはポリゴン注釈と同様のプラットフォームを使用し、注釈者がラベルを付ける必要があるピクセルのグループの周囲に線を描くことを可能にします。もちろん、これらの操作は AI 支援プラットフォームで完了できます。たとえば、プロセッサは車の輪郭の境界を大まかに描画できますが、エラーを回避するために、セグメンテーション プロセス中に車の下の影の部分を削除する必要があります。

実際のアプリケーションでは、アノテーターが自動運転のトレーニング データを受け取ると、画像内のすべてのコンテンツを道路、建物、自転車、歩行者、障害物、木、歩道、車両に応じて分類およびセグメント化する必要があります。さらに、人間の注釈者は別のツールを使用して、被写体に属さないピクセルを切り取ります。

セマンティックセグメンテーションのもう 1 つの一般的な応用シナリオは、医療用画像処理です。提供された患者の写真に対して、注釈者は解剖学的な観点から、さまざまな体の部位に正しい部位名をラベル付けします。したがって、セマンティックセグメンテーションは、「CTスキャン画像で脳病変をマークする」などのより困難な特殊なタスクを処理するために使用できます。

原題: 5 種類の画像注釈の紹介、著者: Limarc Ambalina

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  Python 機械学習チュートリアル

>>:  顔認識の応用シナリオは拡大し続けています。顔スキャンは便利で安全である必要があります。

ブログ    
ブログ    

推薦する

Appleのアプリランキングアルゴリズム調整の裏側:ランキング管理企業が一夜にして沈黙

4月1日早朝のニュース:3月初旬から、AppleはAppランキングアルゴリズムを徐々に調整し、ランキ...

...

機械が人間に取って代わるというのは空想ではありません。最初に影響を受けるのは 3 つの職業です。油断しないでください。

科学技術の継続的な発展により、多くの業界で「ロボット」が使用され、効率が向上するだけでなく、人件費も...

清華大学の朱俊氏のチームは、拡散モデルを打ち破り、シュレーディンガー橋に基づく新しい音声合成システムを開発した。

最近、清華大学コンピュータサイエンス学部の朱軍教授の研究グループが発表したシュレーディンガー橋[1]...

ニューラルネットワークに基づくマルウェア検出分析

今日、あらゆる業界にとって、「マルウェアを効果的に検出する方法」は、ネットワーク セキュリティに関す...

AIがビジネスとマーケティングの未来をどう形作るのか

ここで、AI がビジネスとマーケティングの未来をどのように形作っていくのかを見てみましょう。有名な諺...

...

...

中国の女性医師が効率的なNASアルゴリズムを提案:AutoMLは一度トレーニングするだけで数十億のハードウェアに適応できる

現在、カリフォルニア大学リバーサイド校が率いるチームは、ジョージ・メイソン大学およびノー​​トルダム...

マスク氏がxAI設立を正式発表!清華大学の卒業生がGoogle + OpenAIチームに参加し、宇宙の究極の答えを解読

マスク氏の野望がついに暴露される!反 AI 戦士は独自の AI を作成し、X ユニバースに新しいメン...

...

AI と SEO の組み合わせ: 祝福か呪いか?

検索エンジンは誕生以来、基本的な検索エージェントから人工知能 (AI) と機械学習 (ML) に基づ...

青春が戻ってきた! AIが『スラムダンク』の登場人物を実在の人物に変身させたら、一番イケメンは流川楓じゃないのか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI 開発の世界では、自然言語処理を真に習得することはどれほど重要ですか?

人工知能開発の分野で最も重要な目標は、自然言語処理 (NLP) を真に習得したシステムを作成すること...

1 つの GPU + 数行のコードで、大規模モデルのトレーニング速度が 40% 向上します。 HuggingFaceのシームレスなサポート

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...