ビッグデータダイジェスト制作 編集:ダイジェスト 近年、コンピュータービジョン(CV)の発展は止められず、私たちの生活のあらゆる側面に浸透しています。一般の人々にとって、これは新しくて刺激的な技術革新のように思えるかもしれませんが、実際はそうではありません。 実際、コンピューター ビジョンは何十年もかけて開発されてきました。1970 年代初頭には、今日使用されている多くのアルゴリズムの強固な基盤が築かれました。そして、約 10 年前、まだ理論開発段階にあった新しいテクノロジーが登場しました。ディープラーニングは、十分なデータとそれを駆動する計算能力があれば、ニューラル ネットワークを使用して非常に複雑な問題を解決する AI の一種です。 ディープラーニングが進歩するにつれ、特定のコンピュータービジョンの問題に対して非常に優れたパフォーマンスを発揮できることがわかってきています。ディープラーニングは、オブジェクトの検出や分類などの難しい問題に特に役立ちます。この時点から、「古典的な」コンピューター ビジョンとディープラーニング ベースのコンピューター ビジョンの間に明確な違いが現れ始めます。 クラシック CV をロックするものは何ですか?しかし、ディープラーニングの台頭によって、従来のコンピュータービジョンが時代遅れになったわけではありません。この 2 つは並行して発展を続けており、どの問題がビッグデータに適しているか、どの問題は数学的および幾何学的なアルゴリズムを使用して引き続き取り組む必要があるかを識別するのに役立ちます。 ディープラーニングはコンピュータービジョンに革命を起こす可能性を秘めていますが、この魔法のような変化は、適切なトレーニングデータが利用できる場合、またはネットワークが明示的な論理的または幾何学的な制約の下で独立して学習できる場合にのみ発生します。 これまで、従来のコンピューター ビジョンは、オブジェクトの検出、特徴 (エッジ、コーナー、テクスチャなど) の識別、さらには画像内の各ピクセルのラベル付け (セマンティック セグメンテーション) に使用されてきました。ただし、これらのプロセスは非常に複雑で時間がかかります。 オブジェクトを検出するには、スライディング ウィンドウ、パターン マッチング、網羅的検索などの技術に精通している必要があります。特徴を抽出して分類するには、エンジニアがカスタム メソッドを開発する必要があります。ピクセルレベルでさまざまなカテゴリのオブジェクトを区別するには、さまざまな領域をセグメント化するための多くの作業が必要であり、最も経験豊富なコンピューター ビジョン エンジニアであっても、画像内のすべてのピクセルを常に正しく区別できるとは限りません。 ディープラーニングが物体検出に革命を起こすそれに比べて、ディープラーニング、特に畳み込みニューラル ネットワーク (CNN) と領域ベース畳み込みニューラル ネットワーク (R-CNN) では、Google や Amazon などの大企業が作成した大規模な画像データベースと組み合わせることで、オブジェクトの検出が比較的容易になりました。十分に訓練されたネットワークと、明示的に手動で作成されたルールなしで、アルゴリズムはさまざまな状況でオブジェクトを検出でき、視野角によって制限されません。 特徴抽出の点では、ディープラーニングでは、モデルの過剰適合を防ぎ、実稼働後に新しいデータに直面したときに高い精度スコアを確保するために、効果的なアルゴリズムと豊富で多様なトレーニング データのみが必要です。 CNN はこのタスクで特に優れたパフォーマンスを発揮します。さらに、ディープラーニングをセマンティックセグメンテーションに適用すると、U-net アーキテクチャのパフォーマンスが非常に向上し、複雑な手動処理が不要になります。 「クラシックアルゴリズム」を振り返るディープラーニングは間違いなくコンピューター ビジョンの分野に革命をもたらしましたが、同時位置推定とマッピング (SLAM) やモーションからの構造抽出 (SFM) などの特定の課題に関しては、従来のコンピューター ビジョン ソリューションが依然として新しいアプローチよりも優れています。これらの質問はすべて、画像を使用して物理空間の次元を理解し、描写することを伴います。 SLAM の主な目的は、マップ内のエージェント (通常は何らかのロボット) の位置を追跡しながら、エリアのマップを構築および更新することです。この技術により、自動運転車やロボット掃除機などが可能になります。 SFM も高度な数学と幾何学に依存していますが、その目的は、順序付けられていない一連の画像から取得した複数の視点を使用してオブジェクトの 3D 再構築を作成することです。リアルタイムの即時応答が要求されない状況に適しています。 当初、SLAM を正しく実行するには大量の計算能力が必要であると考えられていました。しかし、近似法を使用することで、コンピューター ビジョンの先駆者たちは計算要件をより管理しやすいものにすることができました。 対照的に、SFM ははるかに単純です。通常はセンサー フュージョンを伴う SLAM とは異なり、このアプローチではカメラの固有の特性と画像の特徴のみを活用します。これは、範囲と解像度の制限により多くの人が実行できないレーザー スキャンに比べてコスト効率の高い方法です。その結果、オブジェクトの信頼性が高く正確な表現が得られます。 今後の道ディープラーニングでは従来のコンピュータービジョンほど解決できない問題がまだいくつかあります。エンジニアはこれらの問題を解決するために従来の技術を使い続ける必要があります。問題に複雑な数学と直接的な観察が関係し、適切なトレーニング データセットを入手するのが難しい場合、ディープラーニングのパワーと煩雑さによって、優れたソリューションを生み出せない可能性があります。この状況は、「陶器店に入った雄牛」の例えで説明できます。ChatGPT が基本的な算術演算にとって最も効率的 (または正確) なツールではないのと同じように、特定の課題では従来のコンピューター ビジョンが引き続き優位に立つでしょう。 従来のコンピューター ビジョンからディープラーニング ベースのコンピューター ビジョンへの部分的な移行により、2 つの大きな洞察が得られます。 まず、古い技術を全面的に置き換えることは、たとえ単純ではあっても間違いであることを認識しなければなりません。ある分野が新しい技術によって混乱をきたす場合、私たちは細部にまで注意を払い、どの問題が新しい技術から恩恵を受けるのか、どの問題が依然として古い方法の方が適しているのかをケースバイケースで判断しなければなりません。 2 つ目の発見は、移行によってスケーラビリティがもたらされた一方で、ほろ苦い感情ももたらされたということです。伝統的な方法は確かにより手作業的ですが、それは芸術と科学の組み合わせでもあることを意味します。画像から特徴、オブジェクト、エッジ、主要な要素を抽出するために必要な創造性と革新性は、ディープラーニングからではなく、慎重な思考から生まれます。 従来のコンピューター ビジョン技術から離れていくにつれて、エンジニアはコンピューター ビジョン ツールのインテグレーターのような存在になることがあります。これは業界にとっては「良いこと」ではあるが、残念ながら、より芸術的かつ創造的な要素が放棄されてしまう。今後の課題は、この芸術性を他の方法で取り入れることです。 交換品の理解今後 10 年間で、Web 開発の主な焦点は「学習」から「理解」に置き換わると予測しています。焦点は、ネットワークがどれだけ学習できるかではなく、ネットワークが情報をどれだけ深く理解できるか、そしてデータで過負荷にすることなくその理解をどのように促進できるかに移ります。私たちの目標は、ネットワークが最小限の介入でより深い結論に到達できるようにすることです。 コンピュータービジョンの分野では、次の 10 年間は間違いなくいくつかの驚きをもたらすでしょう。おそらく、古典的なコンピュータービジョンは最終的には時代遅れになるでしょう。おそらくディープラーニングも、私たちがまだ聞いたこともない技術に置き換えられるでしょう。ただし、少なくとも現時点では、これらのツールは特定のタスクに最適な選択であり、今後 10 年間のコンピューター ビジョン開発の基礎を形成します。いずれにせよ、これは非常にやりがいのある旅となるでしょう。 参考文献: https://venturebeat.com/ai/ten-years-in-deep-learning-changed-computer-vision-but-the-classical-elements-still-stand/ |
フォーブスによると、コーエン研究所の研究者らは最近、テスラのオートパイロットシステムへのハッキングに...
海外メディアの報道によると、マイクロソフトは、自動化や人工知能によるコンテンツ決定に向けた同社の取り...
サイバー攻撃の巧妙さと深刻さが増すにつれ、IT 業界は協力して、サイバー攻撃からの保護と防止に使用さ...
4月7日、PR Newswireによると、市場調査会社Grand View Researchが最近発...
2020 年のコロナウイルスのパンデミックは、データの迅速な分析と解釈の重要性、そして情報に基づいた...
2017 年 3 月 9 日、ハッカー アンダーグラウンド テクノロジーの専門家であり作家でもある...
Dataiku と Databricks が発表した新しい共同調査によると、生成型人工知能の急速な導...
[[325837]] Twitterは北京時間5月12日、スタンフォード大学のコンピューターサイエン...
「大規模なシステムを構築するには、体系的な思考、実践的なスキル、システム構築への愛情を持った人材が...
[[327238]] Twitter社が永久に在宅勤務を行うと発表した後、ザッカーバーグ氏は今後5年...
GPT-4V の誕生後、その驚くべきマルチモーダル機能はネットユーザーから何度も称賛され、OpenA...
マイクロソフトは 10 月 25 日に iOS 版と Android 版の Skype アプリを更新...