コンピュータビジョンの10年: ディープラーニングは変化をもたらすが、特定の課題においては依然として古典的な要素が優勢である

ビッグデータダイジェスト制作

編集：ダイジェスト

近年、コンピュータービジョン（CV）の発展は止められず、私たちの生活のあらゆる側面に浸透しています。一般の人々にとって、これは新しくて刺激的な技術革新のように思えるかもしれませんが、実際はそうではありません。

実際、コンピュータービジョンは何十年もかけて開発されてきました。1970 年代初頭には、今日使用されている多くのアルゴリズムの強固な基盤が築かれました。そして、約 10 年前、まだ理論開発段階にあった新しいテクノロジーが登場しました。ディープラーニングは、十分なデータとそれを駆動する計算能力があれば、ニューラルネットワークを使用して非常に複雑な問題を解決する AI の一種です。

ディープラーニングが進歩するにつれ、特定のコンピュータービジョンの問題に対して非常に優れたパフォーマンスを発揮できることがわかってきています。ディープラーニングは、オブジェクトの検出や分類などの難しい問題に特に役立ちます。この時点から、「古典的な」コンピュータービジョンとディープラーニングベースのコンピュータービジョンの間に明確な違いが現れ始めます。

クラシック CV をロックするものは何ですか?

しかし、ディープラーニングの台頭によって、従来のコンピュータービジョンが時代遅れになったわけではありません。この 2 つは並行して発展を続けており、どの問題がビッグデータに適しているか、どの問題は数学的および幾何学的なアルゴリズムを使用して引き続き取り組む必要があるかを識別するのに役立ちます。

ディープラーニングはコンピュータービジョンに革命を起こす可能性を秘めていますが、この魔法のような変化は、適切なトレーニングデータが利用できる場合、またはネットワークが明示的な論理的または幾何学的な制約の下で独立して学習できる場合にのみ発生します。

これまで、従来のコンピュータービジョンは、オブジェクトの検出、特徴 (エッジ、コーナー、テクスチャなど) の識別、さらには画像内の各ピクセルのラベル付け (セマンティックセグメンテーション) に使用されてきました。ただし、これらのプロセスは非常に複雑で時間がかかります。

オブジェクトを検出するには、スライディングウィンドウ、パターンマッチング、網羅的検索などの技術に精通している必要があります。特徴を抽出して分類するには、エンジニアがカスタムメソッドを開発する必要があります。ピクセルレベルでさまざまなカテゴリのオブジェクトを区別するには、さまざまな領域をセグメント化するための多くの作業が必要であり、最も経験豊富なコンピュータービジョンエンジニアであっても、画像内のすべてのピクセルを常に正しく区別できるとは限りません。

ディープラーニングが物体検出に革命を起こす

それに比べて、ディープラーニング、特に畳み込みニューラルネットワーク (CNN) と領域ベース畳み込みニューラルネットワーク (R-CNN) では、Google や Amazon などの大企業が作成した大規模な画像データベースと組み合わせることで、オブジェクトの検出が比較的容易になりました。十分に訓練されたネットワークと、明示的に手動で作成されたルールなしで、アルゴリズムはさまざまな状況でオブジェクトを検出でき、視野角によって制限されません。

特徴抽出の点では、ディープラーニングでは、モデルの過剰適合を防ぎ、実稼働後に新しいデータに直面したときに高い精度スコアを確保するために、効果的なアルゴリズムと豊富で多様なトレーニングデータのみが必要です。 CNN はこのタスクで特に優れたパフォーマンスを発揮します。さらに、ディープラーニングをセマンティックセグメンテーションに適用すると、U-net アーキテクチャのパフォーマンスが非常に向上し、複雑な手動処理が不要になります。

「クラシックアルゴリズム」を振り返る

ディープラーニングは間違いなくコンピュータービジョンの分野に革命をもたらしましたが、同時位置推定とマッピング (SLAM) やモーションからの構造抽出 (SFM) などの特定の課題に関しては、従来のコンピュータービジョンソリューションが依然として新しいアプローチよりも優れています。これらの質問はすべて、画像を使用して物理空間の次元を理解し、描写することを伴います。

SLAM の主な目的は、マップ内のエージェント (通常は何らかのロボット) の位置を追跡しながら、エリアのマップを構築および更新することです。この技術により、自動運転車やロボット掃除機などが可能になります。

SFM も高度な数学と幾何学に依存していますが、その目的は、順序付けられていない一連の画像から取得した複数の視点を使用してオブジェクトの 3D 再構築を作成することです。リアルタイムの即時応答が要求されない状況に適しています。

当初、SLAM を正しく実行するには大量の計算能力が必要であると考えられていました。しかし、近似法を使用することで、コンピュータービジョンの先駆者たちは計算要件をより管理しやすいものにすることができました。

対照的に、SFM ははるかに単純です。通常はセンサーフュージョンを伴う SLAM とは異なり、このアプローチではカメラの固有の特性と画像の特徴のみを活用します。これは、範囲と解像度の制限により多くの人が実行できないレーザースキャンに比べてコスト効率の高い方法です。その結果、オブジェクトの信頼性が高く正確な表現が得られます。

今後の道

ディープラーニングでは従来のコンピュータービジョンほど解決できない問題がまだいくつかあります。エンジニアはこれらの問題を解決するために従来の技術を使い続ける必要があります。問題に複雑な数学と直接的な観察が関係し、適切なトレーニングデータセットを入手するのが難しい場合、ディープラーニングのパワーと煩雑さによって、優れたソリューションを生み出せない可能性があります。この状況は、「陶器店に入った雄牛」の例えで説明できます。ChatGPT が基本的な算術演算にとって最も効率的 (または正確) なツールではないのと同じように、特定の課題では従来のコンピュータービジョンが引き続き優位に立つでしょう。

従来のコンピュータービジョンからディープラーニングベースのコンピュータービジョンへの部分的な移行により、2 つの大きな洞察が得られます。

まず、古い技術を全面的に置き換えることは、たとえ単純ではあっても間違いであることを認識しなければなりません。ある分野が新しい技術によって混乱をきたす場合、私たちは細部にまで注意を払い、どの問題が新しい技術から恩恵を受けるのか、どの問題が依然として古い方法の方が適しているのかをケースバイケースで判断しなければなりません。

2 つ目の発見は、移行によってスケーラビリティがもたらされた一方で、ほろ苦い感情ももたらされたということです。伝統的な方法は確かにより手作業的ですが、それは芸術と科学の組み合わせでもあることを意味します。画像から特徴、オブジェクト、エッジ、主要な要素を抽出するために必要な創造性と革新性は、ディープラーニングからではなく、慎重な思考から生まれます。

従来のコンピュータービジョン技術から離れていくにつれて、エンジニアはコンピュータービジョンツールのインテグレーターのような存在になることがあります。これは業界にとっては「良いこと」ではあるが、残念ながら、より芸術的かつ創造的な要素が放棄されてしまう。今後の課題は、この芸術性を他の方法で取り入れることです。

交換品の理解

今後 10 年間で、Web 開発の主な焦点は「学習」から「理解」に置き換わると予測しています。焦点は、ネットワークがどれだけ学習できるかではなく、ネットワークが情報をどれだけ深く理解できるか、そしてデータで過負荷にすることなくその理解をどのように促進できるかに移ります。私たちの目標は、ネットワークが最小限の介入でより深い結論に到達できるようにすることです。

コンピュータービジョンの分野では、次の 10 年間は間違いなくいくつかの驚きをもたらすでしょう。おそらく、古典的なコンピュータービジョンは最終的には時代遅れになるでしょう。おそらくディープラーニングも、私たちがまだ聞いたこともない技術に置き換えられるでしょう。ただし、少なくとも現時点では、これらのツールは特定のタスクに最適な選択であり、今後 10 年間のコンピュータービジョン開発の基礎を形成します。いずれにせよ、これは非常にやりがいのある旅となるでしょう。

参考文献:

https://venturebeat.com/ai/ten-years-in-deep-learning-changed-computer-vision-but-the-classical-elements-still-stand/

<<:

>>:

コンピュータビジョンの10年: ディープラーニングは変化をもたらすが、特定の課題においては依然として古典的な要素が優勢である

クラシック CV をロックするものは何ですか?

ディープラーニングが物体検出に革命を起こす

「クラシックアルゴリズム」を振り返る

今後の道

交換品の理解

2019 年の JavaScript 向け機械学習ライブラリトップ 6

AI による顔を変える動画が何百万人ものユーザーを獲得。たった 1 ステップで楽しさから恐怖感まで

AI開発者のための7つの倫理ガイドライン

顔認識メイク落としはアリペイを認識できない：馮潔は范冰冰に似せるために整形手術を受けたが、それでも認識できる

phind: 開発者に特化したAI検索エンジンの誕生！

自動運転車にロボットが殺される、これは今後ますます増えるかもしれない

パーシー・リャンらによる新しい研究：新しいBingのような生成型検索エンジンはそれほど役に立たないかもしれない

転移学習に関する最先端の研究：低リソース、ドメイン一般化、安全な転移

Microsoft と Google はそれぞれ分散型ディープラーニングフレームワークをオープンソース化しています。それぞれの強みは何でしょうか?

推薦する

ハーバード史上最短の在職期間！ 53歳の女性校長、博士論文の盗作疑惑で辞職

スイス再保険：AI を活用して保険対応プロセスを効率化

アルゴリズムは偏っているか?他の人よりも優れていればいいのです！

脳とコンピュータをつなぐ技術が実現！未来の人類社会はどうなる？

再帰アルゴリズム: 不可解なスイッチ「ライトを引く」

Baidu Brainは、顔をスキャンしてWeChat Momentsで拡散できるAIベースの春節連句をサポート

クラウドベースの生成 AI システムを実行するためのベストプラクティス

GPT-4は人間が92点取れる質問に対して15点しか取れない。テストがアップグレードされると、すべての大きなモデルが露呈する。

大規模なモデルのトレーニングを恐れる必要はありません。軽量の TorchShard ライブラリは GPU メモリの消費を削減し、PyTorch と同じ API を備えています。