AIは急速に変化しています。コンピュータービジョンの未来はどこにあるのでしょうか?

著者: 張傑

[51CTO.com からのオリジナル記事]コンピュータービジョン (CV) は、人工知能の分野における人間の目に相当します。コンピューターが人間のように画像やビデオ内の情報を認識、理解、処理できるようにすることを目的としています。ディープラーニングの台頭と発展により、CV分野は現在急速に進歩しています。この技術は、セキュリティ、金融、自動運転、医療などの業界で広く使用されており、徐々に人工知能分野で最も広く使用されている技術の1つになっています。より多くのアプリケーションシナリオが発見されるにつれて、コンピュータービジョンの開発展望も非常に広くなることも意味します。

フロンティア：進歩と課題

2012 年以降、ディープラーニングが登場し、ほぼすべてのコンピュータービジョンタスクに革命をもたらしました。その特徴は、従来の特徴エンジニアリングとモデル学習を統合し、学習プロセス中に特徴設計を実行できることです。 2021年も伝統的なテクノロジー大手の業績は引き続き目覚ましく、発売されるや否や多くのモデルが大きな注目を集めました。

OpenAI は、テキストと画像を結び付ける 2 つのニューラルネットワーク、CLIP と DALL·E もリリースしました。これら 2 つのモデルに基づいて、機械学習コミュニティの開発者は、テキストと画像を一致させる多くの新しい方法を試してきました。

Google Brain チームは、Vision Transformer (ViT) の高度なバージョンである ViT-G/14 を発表しました。これは、最大 20 億のパラメータを持つ CV モデルです。30 億枚の画像でトレーニングした後、ImageNet で最高の精度記録である 90.45% を更新しました。

…

さらに、CV 分野で発表される論文の数は過去 1 年間で急増しました。統計によると、今年のCVPR（Computer Vision and Pattern Recognition、コンピュータビジョン分野のトップサミットの1つ）で開催された12のカンファレンスでは、1,600件を超える論文が発表され、いくつかの新しいトピックが注目を集めました。

まず、敵対的サンプル学習を使用します。敵対的学習を通じて、さまざまなレベルのノイズが追加された場合の予測ラベルの安定性に基づいて、各サンプルの信頼性を推定できます。これにより、モデルはノイズに対してより耐性のあるサンプルを識別して集中できるようになり、敵対的サンプルに対する感度が低下します。

2番目は、自己監督と対照学習です。自己教師あり学習は、データ効率の高い人工知能システムを作成するためのいくつかのスキームのうちの 1 つです。主に補助タスク (口実) を使用して、大規模な教師なしデータから自己教師あり情報をマイニングします。ネットワークは、この構築された教師あり情報を通じてトレーニングされ、下流のタスクに役立つ表現を学習できるようになります。

3番目は視覚言語モデルです。 VL はさまざまな形式のデータを使用することで、より優れた機能マッピングと抽出を可能にします。さらに、これらのシステムをトレーニングするための大量のデータサンプルが利用可能です。自己教師学習と同様に、学習された特徴は一般的なものであり、複数の下流タスクで使用できます。さらに、VL モデルを使用すると、より優れた視覚的特徴を学習し、言語表現を強化することができます。

4番目は、限られたデータで学習することです。弱教師学習と転移学習は、CV モデルのトレーニングに必要なラベル付きデータの量を削減するのに役立ち、それによって業界でのこれらのモデルの応用と採用が増加します。弱教師あり学習は、ノイズの多いラベルがある場合でもモデルのパフォーマンスを向上させるのに役立ちます。しかし、弱教師学習と転移学習はどちらも比較的新しい分野であり、業界で使用できるようになるまでにはしばらく時間がかかるでしょう。

ビジネス：無限の可能性、しかし不安定な流れ

2012 年にコンピュータービジョンの分野でニューラルネットワークテクノロジが登場して以来、アルゴリズムは着実に改善され、特定の視覚タスクにおけるパフォーマンスは人間に匹敵するか、あるいは人間を上回っています。コンピュータービジョン技術が成熟するにつれ、その商業的価値と開発の可能性も資本市場で広く認識されるようになりました。

Crunchbase の統計によると、過去 8 年間で約 1,800 社のコンピュータービジョンスタートアップ企業が 150 億ドルを超えるベンチャーキャピタルを調達しています。中国市場だけでも、コンピュータービジョン産業の市場規模も急速に発展しています。未来産業研究所によると、2020年、中国のコンピュータービジョン製品の市場規模は、人工知能産業全体の57％を占めました。

業界分布で見ると、小売、セキュリティ、製造、医療に人気が集中しています。

小売業界では、シナリオベースのマーケティング、製品の識別と分析、消費者行動の分析、盗難防止に基づいて、ユーザーエクスペリエンスを向上させ、店舗運営をインテリジェント化する方法を提供できます。セキュリティはCV実装の最も初期のシナリオの1つであり、ビデオ監視、スマート輸送、スマートパークなどの分野で広く使用されています。製造業におけるCVテクノロジーの使用には、スマートな現場安全監視、予測メンテナンス、インテリジェント支援輸送、産業用視覚品質検査が含まれ、シナリオは豊富で多様です。医療分野では、CV製品とソリューションは、現代の医療診断と治療のレベルを向上させるための重要なツールであり、リスクが低く、外傷の少ない手術計画の実施を可能にします。

全体として、コンピュータービジョンと産業の統合が深まることで、産業規模の成長も加速しています。データによれば、2025年までに我が国のコンピュータービジョン技術、コアビジュアル製品および関連産業の規模は6000億に達するでしょう。しかし、このトラックには無限の可能性があるものの、このトラックのプレイヤーにとってはまだ潜在的な問題が残っています。

2021年12月、センスタイムの上場にとって重要な時期に、米国財務省は同社を「中国の軍産複合体企業」リストに含め、米国の投資家はセンスタイムへの投資を禁止された。制裁リストには以前、センスタイムとともに「AI四大ドラゴン」として知られる他の3社（メグビー・テクノロジー、クラウドウォーク・テクノロジー、イトゥ・テクノロジー）も含まれていた。

現在、科学技術分野における中国とアメリカの競争はますます激しくなっています。インターネット産業の発展が全体的に鈍化する中、米国による中国の人工知能企業への取り締まりは、間違いなく追い打ちをかけるものとなっている。 2021年12月31日現在、コンピュータービジョン分野の「AI四小龍」はいずれも上場計画を打ち出しているが、紆余曲折を経て香港株式市場に上場に成功したのはセンスタイムのみである。

四匹の小さなドラゴンの上場までの紆余曲折は、外部要因とは別に、AI業界全体が商業化の道で直面している困難を反映している。

AI の開発はいくつかの浮き沈みを経験してきましたが、これは AI がすぐに資金を浪費し、実装が難しいという現実と密接に関係しています。 4つのAIユニコーンを例に挙げてみましょう。これらはすべてコンピュータービジョンの分野に属しています。事業開始当初、製品の均質性が高く、応用シナリオは主にセキュリティと金融の分野に集中していました。発展を求める場合、より多くの製品ソリューションと応用シナリオを開発することが厳しい要求となります。しかし、より細分化された軌道に着地することを目指すことは、間違いなくより大きな挑戦です。継続的な事業拡大と多額の研究開発投資にもかかわらず、期待を下回る影は消えず、長期損失の状況は改善されていません。

コンピュータビジョン技術の応用には、ビジネスと業界へのより深い浸透、ユーザーの洞察の強化、そして何千人もの人々の多様なニーズへの対応が必要です。そのためには、企業は将来的に最先端のアルゴリズムの研究開発に注目しながら、アルゴリズムと商用アプリケーションの統合をさらに強化し、産業実装の深海で他の業界やパートナーとエコシステムを構築してクローズドバリューループを実現することを求めています。

5つの大きなトレンド

2021 年のコンピュータービジョン分野の全体的な発展を展望し、Intel のソフトウェア革新者であり Google の開発専門家でもある Sayak Paul 氏は、5 つの新しいトレンドを提案しました。

トレンド1: リソース効率の高いモデル

理由：

最先端のモデルは、携帯電話、Raspberry Pi、その他のマイクロプロセッサなどの軽量デバイスではオフラインで実行するのが困難な場合がよくあります。
より重いモデルでは、レイテンシ（ここでは、単一のモデルが順方向の計算を実行するのにかかる時間を表します）が顕著になる傾向があり、インフラストラクチャのセットアップコストに大きな影響を与える可能性があります。
コスト、ネットワーク接続、プライバシーなどの理由でクラウドベースのモデルホスティングが選択できない場合はどうなりますか?

トレンド 2: クリエイティブアプリケーションのための生成モデル

理由：

生成モデルは大きな進歩を遂げました。
生成的敵対的ネットワーク (GAN) を使用すると、ほぼあらゆるリアルな画像を作成できます。例については、https://thisxdoesnotexist.com/ を参照してください。
画像の超解像、ドメイン転送、外挿、暗黙的ニューラル表現、CLIPなど、さまざまな機能を実現できます。

トレンド3: 自己教師あり学習

理由：

自己教師学習では、GT ラベル (Ground Truth Labeler) は使用されませんが、プレテキストタスクが使用されます。その後、大量のラベルなしデータセットがモデルのトレーニングに使用されます。

対照的に、教師あり学習には次のような課題があります。

パフォーマンスの向上には大量のラベル付きデータが必要
データのラベル付けには人件費が高く、偏りが生じる可能性がある
大規模なデータの注釈付けとトレーニングには長い時間がかかる

一般に、ラベルなしデータの準備コストは非常に低く、コンピュータービジョンの分野では、SEER (自己教師ありモデル) などのモデルは、物体検出やセマンティックセグメンテーションにおいて教師あり学習よりも優れたパフォーマンスを発揮します。

トレンド4: トランスフォーマーと自己注意の使用

理由：

Transformers は、従来の Attention メカニズムとは大きく異なる Self-Attention メカニズムを使用する新しい機械学習アーキテクチャです。この方法は、ペアになったエンティティ間の関係（ペアワイズエンティティ相互作用）を定量化することで、ソース側またはターゲット側の単語間の依存関係を効果的に取得でき、ネットワークがアライメントデータ内のコンテキスト情報を学習するのに役立ちます。さらに、自己注意を CNN と組み合わせると、強力なベースライン (BoTNet) が構築されます。

CNN と比較して、Transformer には次の利点があります。

帰納法や事前確率が少ないため、さまざまな学習タスクに適用できる一般的な計算基盤とみなすことができます。
CNNに匹敵するパラメータ効率とパフォーマンス

CNN と比較した Transformer の欠点:

事前トレーニング中は、ビッグデータメカニズムへの依存度が高まります。トランスフォーマーはCNNのように明確に定義された事前分布を持たないため

トレンド5: 堅牢なビジュアルモデル

視覚モデルは多くの要因によって簡単に乱され、パフォーマンスに影響を及ぼします。

現在、私たちは以下の3つの問題に直面しています。

妨害。ディープモデルは、入力データの微妙な変化に対しては堅牢ではありません。
変形。ディープモデルは最初に高周波領域に反応するため、一般的な破損 (ぼかし、コントラスト、スケーリングなど) の影響を受けやすくなります。
配布外データ。

堅牢性を向上させるための試み:

敵対的トレーニング: ビザンチンフォールトトレランスに似ており、基本的にはモデルが悪い状況を自ら処理できるように準備します。
一貫性正規化: モデルはノイズの多い入力と一貫性があることが期待されます。
異常なデータポイントを即座に検出します。

結論

コンピュータービジョンにより、機械は視覚を通じて世界を理解できるだけでなく、世界とのつながりを確立し、理解に基づいて意思決定を行い、最終的には相互作用の道筋を実現できるようになります。他の技術と同様に、CV もギャップ、バブル、バブルの縮小、合理的回収、再出現などの浮き沈みを経験しており、商用化されるまでにはまだまだ長い道のりが残っています。しかし、私たちは歴史の車輪は常に前進し続け、コンピュータービジョンが人間の生活に役立つ日もそう遠くないと信じています。

添付参考資料：

CVPR 2021 論文からのコンピュータービジョンの現状:

https://www.163.com/dy/article/GEUJ8CG50531D9VR.html#post_comment_area

IEEE フェロー Mei Tao: ビジュアルコンピューティングの最先端の進歩と課題:

https://www.yanxishe.com/blogDetail/28319 より

2021年中国人工知能産業の市場現状と有利な軌道の分析コンピュータービジョンは数千億元規模の軌道となっている。

https://baijiahao.baidu.com/s?id=1711947993304727146&wfr=spider&for=pc

Sayak Paul | ディープラーニング、コンピュータービジョンなど:

https://sayak.dev/

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<: Heroku クラウドにディープラーニング Web アプリケーションをデプロイするためのヒントとコツ

>>: さまざまな機械学習アルゴリズムの選択の考え方を説明する記事