コンピュータビジョンによる3D再構成 - 自動運転に焦点を当てる

コンピュータビジョンによる3D再構成 - 自動運転に焦点を当てる

最近、私は何かに没頭しています。没頭するというのは、諦めるということではなく、むしろ醸成していくプロセスです。それでは、この期間に収集したいくつかの有用な情報を共有しましょう。私に従ってください。何かが得られると信じています。そして、あなたの努力が無駄にならないことを願っています。エージェントが理論から実践まで無人システムを実現する方法。ここで言っておきますが、共有される内容は最も単純なものから最も複雑なものまで、十分に詳細なものになるため、最初は少し退屈に感じたり、面倒に感じたりするかもしれません。しかし、皆さんが辛抱強く読み続ける限り、何らかの結果が得られると信じています。

[[403100]]

読者へのお願い

ここで読者の皆さんを私の名前で呼ぶのは気取った感じがしますが、実際は皆さんは私の友人であり、先生なのです。この共有は十分にシンプルで詳細ですが、それでも一定の限界があります。記事に登場する数式や概念を理解するには、高度な数学と線形代数の基礎知識が必要です。しかし、あまり心配しないでください。これは単なる基礎であり、深く掘り下げる必要はありません。つまり、いくつかの基本的な概念を理解できれば十分です。

自分へのちょっとしたお願い

今回は自分自身にもいくつかの要求をしてしまって、ただ楽しむことだけに集中することができません。コンテンツに引き続き重点を置くことに加えて、記事のデザイン、読みやすい文章にする方法、読みやすいようにロジックを相互接続する方法、不明瞭で抽象的なコンテンツをわかりやすくする方法にも時間を費やします。これらは、その後の記事で徐々に改善し、強化してきた点です。

どのような技術が議論されるのでしょうか?

私たちは主に、コンピュータービジョン技術とSLAM技術という2つの技術に焦点を当てています。コンピュータービジョン分野におけるディープラーニングの応用もSLAM技術も、実はコンピュータービジョンがベースになっているので、まずはコンピュータービジョンの基礎知識を普及させる必要があると個人的には思っています。

[[403101]]

3D 再構築は私が比較的興味を持っている分野です。いわゆる 3D 再構築とは、単一の画像または複数の画像に基づいて 3D 環境を再構築することです。この部分の内容は興味深いものですが、多くの分野の知識が関係するため、習得するのは簡単ではありません。これは、3D 世界から 2D 世界への変換、つまりマッピングです。変換プロセス中に、深度情報が失われたり、別の方法で表現されたりします。カメラがこのマッピングを完了します。

ピンホールカメラ

フィルムをオブジェクトの正面に配置することは、3D の世界を画像に直接マッピングする最もシンプルで直感的な方法です。ただし、この方法の問題も明らかです。フィルム上のすべてのポイントは、環境内の複数のオブジェクトから送信される光 (情報) を受信します。そのため、フィルム上の最終的な画像はぼやけてしまい、現実世界の物体の情報を記録することが困難になります。

では、カメラとフィルムの間に仕切りを置き、仕切りの真ん中に小さな穴を開けてみてはどうでしょうか。こうすることで、物体から発せられた光は、小さな穴を通過した後も発散しません。小さな穴のある仕切りはぼやけを軽減し、物体上の点と画像上の点が1対1で対応し、鮮明な画像が得られます。

ここでは三角形の相似則が使われています。赤で表された結像面が像面なので、像面からピンホールまでの距離は f で、f は私たちがよく知っている焦点距離です。ここでのピンホールは絞りであり、私たちが通常研究するのは、像面に対してピンホールを中心として対称となる仮想像面です。ピンホールから撮像対象までの距離は z で表されます。

そして、三角形の相似則に従って、上記の式を得ることができます。上記の式から、カメラ(ピンホール)と物体間の距離zが固定されている場合、焦点距離f、つまり結像面とピンホール間の距離を調整することで、画像のサイズを調整できることは難しくありません。カメラ座標系は光学中心に設定される 3D 座標系ですが、画像平面に設定される座標系は 2D 座標系です。ここで、点 p はカメラ座標系内の点であり、x、y、z は点 p の座標を表し、p プライムは撮像面内の点 p の対応する位置を表し、x プライムと y プライムはそれぞれ撮像面内の点の座標を表します。

軸 y からの画像平面 y プライムカメラ座標系の y の対応を考えてみましょう。

この関係を通じて、空間点を画像平面上の座標にマッピングできます。

上の図から、絞りサイズを調整すると画像にどのような影響があるかがわかります。上図の下付き数字は、そのサイズの絞りで撮影された画像であることを示しています。絞り2mmでは画像が鮮明でないと感じるかもしれませんが、絞り0.35mmではLUZの文字がはっきりと見えます。絞りが小さいほど画像は鮮明になり、絞りを大きくすると画像はぼやけます。これは、絞りを大きくするとフィルム上の 1 つの点が現実世界の複数の点に対応するため、ぼやけた効果が生じるためです。絞りを絞るとフィルムに届く光が少なくなり、画像が暗くなります。

撮像面に到達する光が少ないという問題を解決するために、レンズが導入されました。

しかし、ピンホールイメージングの欠点は、光が不十分なため、イメージング面が最終的に暗くなることです。レンズを導入することで、撮像対象からの複数の光線がレンズを通過した後に撮像面上の一点に収束し、撮像対象に対する光量不足の問題が解決されます。凸レンズの 2 つの特性は、光軸に平行な光はすべて焦点に収束することと、焦点からレンズの中心までの距離を焦点距離と呼ぶことです。レンズの中心を通過する光の方向は変わりません。レンズの焦点距離は、レンズの球面半径 R とレンズの屈折率 n に関係しています。式は次のとおりです。

すると、レンズから結像面までの距離は b になりますが、これについては後でここでのみ考慮します。 b は f と z_0 を考慮しなくなります。レンズは光量不足の問題を解決しますが、レンズの結像は完璧ではありません。次に述べる焦点ずれや放射状の歪みなど、レンズ結像にも問題があります。

焦点が合っていない

1 枚目の画像では、結像面を焦点に置くと、鮮明な小さな光点が得られ、鮮明な結像対象を見ることができます。2 枚目と 3 枚目の画像では、結像面がそれぞれ焦点の前または後ろにあり、ぼやけた画像が得られます。これが焦点ずれの現象です。

放射状の歪み

レンズの2つ目の問題は放射状の歪みです。画像のピクセルポイントは、歪みの中心を中心として放射方向に沿って位置のずれがあり、画像が変形します。

ここでは、それぞれ糸巻き型歪みと樽型歪みを記載します。糸巻き型歪曲収差:鞍型歪曲収差とも呼ばれ、視野内の端領域の拡大率が光軸の中心領域の拡大率よりはるかに大きい歪曲収差です。望遠レンズでよく見られます(上の写真)。樽型歪曲収差は、糸巻き型歪曲収差の逆で、視野内の光軸中央部の倍率が周辺部に比べて大幅に大きくなる歪曲収差のことで、広角レンズや魚眼レンズによく見られます(上図右)。

画像平面からピクセル平面へ

カメラジオメトリでは、ピクセル平面上の点をカメラ座標にマッピングする方法について注意すべき点が 2 つあります。1 つ目は、ピクセルとメートル間の単位変換です。カメラ座標系は通常メートル単位ですが、画像平面はピクセル単位です。 2 番目のポイントは、通常は画像内のポイントの座標です。

バイアス

通常、画像平面では画像の左上隅を原点として使用し、カメラ座標系ではカメラの中心を原点として使用します。このように、カメラ座標の中心と画像の中心の間には偏差があり、その偏差はカメラ ポイント (x、y、z) の合計で表されます。

単位変換

ここで、k と l は 1 メートルあたりのピクセル数を表します。これら 2 つのパラメータは、カメラの感光素子によって決まります。ピクセルが正方形ではないため、k 値と l 値が等しくない場合があります。

fk と fl を表すために alpha または beta を使用でき、これにより式を次の式に簡略化できます。

(u,v) と z は定数ではなく、変数です。u,v と x,y は線形関係にありません。変数 z もあるため、u,v から x,y への線形変換を見つけたいと考えています。ここで、同次座標の概念を紹介します。

<<:  AIを活用してパイロットプロジェクトを計画する方法

>>:  この世界規模の問題に対して、ドローンはどれほどの助けとなるのでしょうか?

推薦する

概念から事例まで: 初心者向けの機械学習アルゴリズムトップ 10

この記事では、まず初心者が知っておくべき機械学習 (ML) アルゴリズムのトップ 10 を紹介し、い...

2021年の主なAIトレンド:AIチップスタートアップのM&Aの可能性

人工知能 (AI) と機械学習は、テクノロジーの意思決定者、業界の専門家、投資家にとって引き続き注目...

冬季オリンピックのテストマッチ、副審はAIだったことが判明

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

深層強化学習における敵対的攻撃と防御

01 はじめにこの論文は、深層強化学習に対する敵対的攻撃に関する研究です。本論文では、著者らは、堅牢...

今検討する価値のある 21 のロボティック プロセス オートメーション (RPA) ツール

[[422760]] [51CTO.com クイック翻訳]事実によれば、ロボティック プロセス オー...

調査によると、ChatGPTはプログラミングの質問に答える際に50%以上のエラー率があることが判明

米パデュー大学の調査によると、OpenAIが開発した人工知能チャットボット「ChatGPT」は、ソフ...

合成データは AI をより良くすることができるでしょうか?

人工知能 (AI) は指数関数的な成長によりさらに進歩していますが、この最新技術には依然として限界が...

...

ディープラーニングを使用してPythonコードを自動的に補完するこのオープンソースプロジェクトは非常に素晴らしい

コード補完機能は IDE では非常に一般的です。優れたコード自動補完機能により、作業効率が大幅に向上...

分析技術は、2019-nCoVの潜在的な感染を追跡し予測するのに役立っています。

[[314175]] 2019-nCoVの最も危険な特徴は人から人へと感染する能力であり、中国では...

GPT-4 の創造性は人間を完全に超えています!最新の創造性テストGPT4は上位1%にランクイン

最近、GPT-4に関連した創造的思考テストが人気になっています。モンタナ大学とUMウエスタン大学の研...

ディープラーニングは自動運転車にとって何を意味するのでしょうか?

[[348074]]自動運転車でディープラーニングを使用すると、歩行者の行動を理解したり、最短ルー...

...

Nvidia は年末に大きな動きを見せます!強力な画像ジェネレーターStyleGAN2のリリース

今年初め、NVIDIA の研究エンジニアは、生成的敵対ネットワーク用のスタイルベースのジェネレーター...

開発者が武器をアップグレードするために推奨される 5 つの機械学習フレームワーク

業界ではよく知られているデータサイエンスのウェブサイトである KDnuggests は昨日、4 月の...