幾何学を利用してディープラーニングモデルのパフォーマンスを向上させることは、コンピュータービジョン研究の未来です。

幾何学を利用してディープラーニングモデルのパフォーマンスを向上させることは、コンピュータービジョン研究の未来です。

[[189965]]

ディープラーニングはコンピュータービジョンを変革しました。現在、ほとんどの問題に対する最善の解決策は、エンドツーエンドのディープラーニング モデル、特に畳み込みニューラル ネットワークに基づいており、すぐに使用できる傾向があります。しかし、これらのモデルのほとんどは、透明性がほとんどない大きなブラックボックスです。

それにもかかわらず、私たちはディープラーニングの分野で目覚ましい成果を達成しており、研究者は基本的なディープラーニング API を使用して、少量のデータと 20 行のコードで多くの成果を簡単に得ることができます。これらの結果は画期的なものではありますが、あまりにも理想主義的であり、原則的な理解が欠けていることが多いと私は考えています。

このブログ記事では、コンピューター ビジョンの問題にディープラーニング モデルを厳密に適用する人が多いが、実際にはもっと良い方法があると主張します。私の博士課程 1 年目の研究結果のいくつかは、その一例です。 PoseNet は、カメラのポーズを研究するためにディープラーニングを使用して開発したアルゴリズムです。この問題はコンピュータービジョンの分野で何十年も研究されており、優れた関連理論が多数存在します。しかし、博士課程 1 年目の学生として、私はディープラーニング モデルを単純に適用してこの問題をエンドツーエンドで研究し、問題の理論を完全に無視したにもかかわらず、良い結果を達成しました。この記事の最後では、この問題に対してより理論的な幾何学ベースのアプローチを採用することで大幅なパフォーマンスの向上を達成した最近の研究について説明します。

私たちは、簡単に解決できる問題、つまり、シンプルで高レベルのディープラーニング API で解決できる問題の大部分に取り組んでいます。具体的には、ディープラーニングを使用したコンピューター ビジョンの将来の進歩の多くは、幾何学に関する洞察から生まれると考えています。

私が話しているこの幾何学とは何でしょうか?

コンピューター ビジョンでは、幾何学は世界の構造と形状を記述し、具体的には深さ、体積、形状、姿勢、視差、動き、オプティカル フローなどの測定単位が含まれます。

幾何学は視覚モデルにおいて大きな役割を果たしていると思います。主な理由は、幾何学が世界の構造を定義し、私たちがその構造を理解しているからです (たとえば、多くの有名な教科書から)。したがって、深度や動きなどの多くの複雑な関係を、ディープラーニングを使用してゼロから研究する必要はありません。この知識を活用するアーキテクチャを構築することで、それを実際の状況に適用し、学習の問題を簡素化することができます。記事の最後にあるいくつかの例では、ジオメトリを使用してディープラーニング アーキテクチャのパフォーマンスを向上させる方法を示します。

代替パラダイムでは、意味表現を使用します。意味的表現では、オブジェクトを「猫」や「犬」として表現する場合など、言語を使用して世界の関係性を表現します。しかし、幾何学には意味論にとって魅力的な特徴が 2 つあると私は考えています。

  1. 形状を直接観察できます。私たちは視覚を通して世界の幾何学的な外観を直接見ることができます。最も基本的なレベルでは、フレーム間のピクセルを対応させることで、ビデオ内の動きと奥行きを直接観察できます。その他の興味深い例としては、立体視差による陰影や奥行きに基づいて形状を観察することが挙げられます。対照的に、意味表現は通常、人間の言語に特有のものであり、ラベルは限られた名詞のセットに対応するため、直接観察することはできません。
  2. 幾何学は、深さをメートルで測定したり、視差をピクセルで測定したりできるような連続量に基づいています。対照的に、意味表現は主に離散化された量またはバイナリ ラベルです。

これらの特性がなぜそれほど重要なのでしょうか? 理由の 1 つは、これらが教師なし学習に非常に効果的であることです。

この構造物は、イギリスのケンブリッジ中心部付近の幾何学的動きの再現で、携帯電話のカメラを使用して作成しました。

教師なし学習

教師なし学習は、ラベルのないデータから表現と構造を学習する人工知能研究の興味深い分野です。大量のラベル付きトレーニング データを取得するのは困難でコストもかかるため、これは非常に興味深いことです。教師なし学習は、よりスケーラブルなフレームワークを提供します。

上で述べた 2 つの特性、つまり観測可能性と連続表現を使用して、幾何学を通じて教師なし学習をモデル化できます。

たとえば、昨年私が気に入った論文の 1 つでは、教師なしトレーニングを使用して幾何学を使用して深度を研究する方法が示されていました。この例では、幾何学理論と上記の特性を組み合わせて教師なし学習モデルを形成する方法をうまく示しています。他の研究論文でも、動きの教師なし学習に幾何学を使用するという同様のアイデアが実証されています。

私のお気に入りの論文の一つ

意味論だけでは十分ではないでしょうか?

引用数の多い画期的な論文の多くが画像分類やセマンティックセグメンテーションから生まれているため、セマンティクスはコンピュータービジョンで多くの注目を集めることが多いです。

世界の表現を設計するためにセマンティクスのみに依存する場合の問題は、セマンティクスが人間によって定義されることです。人工知能システムは、人間と対話するためにセマンティクスを理解する必要があります。 しかし、セマンティクスは人間によって定義されるため、これらの表現は最適ではない可能性があります。世の中の幾何学を直接観察して学ぶほうが自然かもしれません。

赤ちゃんが基本的な幾何学を使って世界を見ることを学んでいることは理解しにくいことではありません。アメリカ眼科学会によると、人間は生後 9 か月の間に、焦点を合わせたり、奥行き、色、形状を認識したりするために両目を調整することを学びます。物体や意味を認識する方法が理解されるのは、生後 12 か月になってからです。これは、幾何学が人間の視覚の基礎にとって非常に重要であることを示しています。これらの洞察をコンピューター ビジョン モデルに組み込むことは間違いなく効果的です。

世界の機械による意味理解 (別名 SegNet)。それぞれの色は、道路、歩行者、標識などの異なる意味カテゴリを表します。

最近の研究からの幾何学的例

最後に、深層学習で幾何学がどのように使用されるかを説明する 2 つの具体的な例を挙げてこの記事を締めくくりたいと思います。

1. PoseNetを使用して再局在化を学​​習する

この記事の冒頭で、いわゆるロボット誘拐問題を解決する単眼 6-DOF 再位置特定アルゴリズムである PoseNet の例を示しました。

ICCV 2015 での最初の論文では、入力画像から 6DOF カメラのポーズへのエンドツーエンドのマッピングを学習することでこの問題に対処しました。これは、問題をブラック ボックスとして扱う単純なアプローチです。今年の CVPR では、問題の幾何学的特性を考慮してこのアプローチを更新しました。カメラの姿勢と向きを別々の回帰ターゲットとして扱うのではなく、幾何学的再投影誤差を使用してそれらを一緒に学習します。世界の幾何学を考慮し、結果が劇的に改善されます。

2. ステレオビジョンによる奥行きの予測

2 番目の例は、両眼視を使用して奥行きを推定する立体視です。私はこの問題に取り組むという栄誉に恵まれ、世界で最も先進的なドローンに取り組み、Skydio で素晴らしい夏を過ごしました。

ステレオ アルゴリズムは通常、一対のきれいなステレオ画像間のオブジェクトの水平位置の差 (視差) を推定するために使用されます。視差は、対応するピクセル位置のシーンの深度に反比例します。したがって、これは本質的にマッチングの問題に簡略化できます。つまり、左の画像と右の画像のオブジェクト間の対応関係を見つけ、おそらく深度を計算することになります。

ステレオで最もパフォーマンスの高いアルゴリズムは主にディープラーニングを使用しますが、マッチング機能の構築にのみ使用します。深度推定を生成するために必要なマッチングと正規化の手順は、依然として大部分が手動で行われています。

私たちは GC-Net アーキテクチャを提案しましたが、今回は問題の根本的な形状に焦点を当てました。ご存知のとおり、ステレオでは、1 次元の視差線上にコスト ボリュームを形成することによって視差を推定できます。この論文の新規性は、コストボリュームの幾何学を微分可能な方法で回帰モデルとして定式化する方法を示していることです。こちらの記事にも詳細が記載されています。

これは、ジオメトリのクリーンな表現を使用してステレオ深度を予測する GC-Net アーキテクチャの概要です。

結論は

この記事の重要なメッセージは次の通りだと思います。

  • コンピューター ビジョンの問題を解決するためのいくつかの従来のアプローチを知っておくことは価値があります (特に機械学習やデータ サイエンスのバックグラウンドがある場合)。
  • 問題の幾何学的特性を利用できるようにアーキテクチャを構造化できれば、ディープラーニングを使用して複雑な表現を研究することがより簡単かつ効果的になります。

<<:  データ プラットフォームのコンピューティング能力: ディープラーニングとデータベースに適した GPU はどれですか?

>>:  機械学習プロジェクトにおけるデータの前処理とデータ ラングリング

ブログ    
ブログ    

推薦する

データ注釈サービスのアウトソーシングによって AI モデルはどのように強化されるのでしょうか?

人工知能 (AI) と機械学習 (ML) の分野では、基礎はデータにあります。データの品質、精度、深...

マイクロソフトは、Bingチャットのベテラン向けにエキスパートモードの導入を検討中:より複雑なUIとより豊富な機能

7月26日、マイクロソフト広告およびウェブサービスのCEOであるミハイル・パラキン氏は、ネットユーザ...

[NCTS サミットレビュー] Li Yuanchun: 自動テストにおける強化学習の応用

2019年10月26日、Testinが主催する第2回NCTS中国クラウドテスト業界サミットが北京で開...

テンセントの無人運転車が初登場!将来的には運転席がペンギンに置き換わる予定!プレート分析

人工知能と新技術の研究開発に関して、新たなブレークスルーがもう一つありました。 テンセントの無人運転...

世界初の「自己複製」する生体ロボットが誕生。科学者たちの次なる目標とは?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

機械学習をサポートする 8 つのデータ ウェアハウス

[[399333]] [51CTO.com クイック翻訳]非常に大きなデータセットの場合、理想的な状...

...

EUがAIを活用して社会イノベーションを推進する方法

[[377176]] 2020年の新型コロナウイルスの世界的な蔓延は、人類にとって永遠の記憶となるこ...

...

OpenAI の組み込み検索は本当に便利ですか?定量的な評価により、より深い理解が得られます。

ベクターデータベースの強力なライバルが登場するか?トラック関連のスタートアップ企業がまたもや倒産しそ...

C# 再帰アルゴリズムの理解の例分析

C# 再帰アルゴリズムを理解するということは、単に使いやすいと感じるということではありません。C# ...

人工知能が巨大な応用価値を生み出す

飛行機搭乗時の「顔スキャン」から無人スーパーマーケットまで、多機能巡回ロボットからスマート医療まで....

アートデザインにおける人工知能

AdobeやCelsysなどのソフトウェア企業は近年、デジタルデザインソフトウェアに人工知能機能を追...

AIの将来はどうなるのでしょうか?

人間のような知能を実現するという永遠の夢を超えて、AI の将来は消費者市場と商業市場の両方で極めて重...

...