コンピュータビジョンによる3D再構成 - 自動運転に焦点を当てる

コンピュータビジョンによる3D再構成 - 自動運転に焦点を当てる

最近、私は何かに没頭しています。没頭するというのは、諦めるということではなく、むしろ醸成していくプロセスです。それでは、この期間に収集したいくつかの有用な情報を共有しましょう。私に従ってください。何かが得られると信じています。そして、あなたの努力が無駄にならないことを願っています。エージェントが理論から実践まで無人システムを実現する方法。ここで言っておきますが、共有される内容は最も単純なものから最も複雑なものまで、十分に詳細なものになるため、最初は少し退屈に感じたり、面倒に感じたりするかもしれません。しかし、皆さんが辛抱強く読み続ける限り、何らかの結果が得られると信じています。

[[403100]]

読者へのお願い

ここで読者の皆さんを私の名前で呼ぶのは気取った感じがしますが、実際は皆さんは私の友人であり、先生なのです。この共有は十分にシンプルで詳細ですが、それでも一定の限界があります。記事に登場する数式や概念を理解するには、高度な数学と線形代数の基礎知識が必要です。しかし、あまり心配しないでください。これは単なる基礎であり、深く掘り下げる必要はありません。つまり、いくつかの基本的な概念を理解できれば十分です。

自分へのちょっとしたお願い

今回は自分自身にもいくつかの要求をしてしまって、ただ楽しむことだけに集中することができません。コンテンツに引き続き重点を置くことに加えて、記事のデザイン、読みやすい文章にする方法、読みやすいようにロジックを相互接続する方法、不明瞭で抽象的なコンテンツをわかりやすくする方法にも時間を費やします。これらは、その後の記事で徐々に改善し、強化してきた点です。

どのような技術が議論されるのでしょうか?

私たちは主に、コンピュータービジョン技術とSLAM技術という2つの技術に焦点を当てています。コンピュータービジョン分野におけるディープラーニングの応用もSLAM技術も、実はコンピュータービジョンがベースになっているので、まずはコンピュータービジョンの基礎知識を普及させる必要があると個人的には思っています。

[[403101]]

3D 再構築は私が比較的興味を持っている分野です。いわゆる 3D 再構築とは、単一の画像または複数の画像に基づいて 3D 環境を再構築することです。この部分の内容は興味深いものですが、多くの分野の知識が関係するため、習得するのは簡単ではありません。これは、3D 世界から 2D 世界への変換、つまりマッピングです。変換プロセス中に、深度情報が失われたり、別の方法で表現されたりします。カメラがこのマッピングを完了します。

ピンホールカメラ

フィルムをオブジェクトの正面に配置することは、3D の世界を画像に直接マッピングする最もシンプルで直感的な方法です。ただし、この方法の問題も明らかです。フィルム上のすべてのポイントは、環境内の複数のオブジェクトから送信される光 (情報) を受信します。そのため、フィルム上の最終的な画像はぼやけてしまい、現実世界の物体の情報を記録することが困難になります。

では、カメラとフィルムの間に仕切りを置き、仕切りの真ん中に小さな穴を開けてみてはどうでしょうか。こうすることで、物体から発せられた光は、小さな穴を通過した後も発散しません。小さな穴のある仕切りはぼやけを軽減し、物体上の点と画像上の点が1対1で対応し、鮮明な画像が得られます。

ここでは三角形の相似則が使われています。赤で表された結像面が像面なので、像面からピンホールまでの距離は f で、f は私たちがよく知っている焦点距離です。ここでのピンホールは絞りであり、私たちが通常研究するのは、像面に対してピンホールを中心として対称となる仮想像面です。ピンホールから撮像対象までの距離は z で表されます。

そして、三角形の相似則に従って、上記の式を得ることができます。上記の式から、カメラ(ピンホール)と物体間の距離zが固定されている場合、焦点距離f、つまり結像面とピンホール間の距離を調整することで、画像のサイズを調整できることは難しくありません。カメラ座標系は光学中心に設定される 3D 座標系ですが、画像平面に設定される座標系は 2D 座標系です。ここで、点 p はカメラ座標系内の点であり、x、y、z は点 p の座標を表し、p プライムは撮像面内の点 p の対応する位置を表し、x プライムと y プライムはそれぞれ撮像面内の点の座標を表します。

軸 y からの画像平面 y プライムカメラ座標系の y の対応を考えてみましょう。

この関係を通じて、空間点を画像平面上の座標にマッピングできます。

上の図から、絞りサイズを調整すると画像にどのような影響があるかがわかります。上図の下付き数字は、そのサイズの絞りで撮影された画像であることを示しています。絞り2mmでは画像が鮮明でないと感じるかもしれませんが、絞り0.35mmではLUZの文字がはっきりと見えます。絞りが小さいほど画像は鮮明になり、絞りを大きくすると画像はぼやけます。これは、絞りを大きくするとフィルム上の 1 つの点が現実世界の複数の点に対応するため、ぼやけた効果が生じるためです。絞りを絞るとフィルムに届く光が少なくなり、画像が暗くなります。

撮像面に到達する光が少ないという問題を解決するために、レンズが導入されました。

しかし、ピンホールイメージングの欠点は、光が不十分なため、イメージング面が最終的に暗くなることです。レンズを導入することで、撮像対象からの複数の光線がレンズを通過した後に撮像面上の一点に収束し、撮像対象に対する光量不足の問題が解決されます。凸レンズの 2 つの特性は、光軸に平行な光はすべて焦点に収束することと、焦点からレンズの中心までの距離を焦点距離と呼ぶことです。レンズの中心を通過する光の方向は変わりません。レンズの焦点距離は、レンズの球面半径 R とレンズの屈折率 n に関係しています。式は次のとおりです。

すると、レンズから結像面までの距離は b になりますが、これについては後でここでのみ考慮します。 b は f と z_0 を考慮しなくなります。レンズは光量不足の問題を解決しますが、レンズの結像は完璧ではありません。次に述べる焦点ずれや放射状の歪みなど、レンズ結像にも問題があります。

焦点が合っていない

1 枚目の画像では、結像面を焦点に置くと、鮮明な小さな光点が得られ、鮮明な結像対象を見ることができます。2 枚目と 3 枚目の画像では、結像面がそれぞれ焦点の前または後ろにあり、ぼやけた画像が得られます。これが焦点ずれの現象です。

放射状の歪み

レンズの2つ目の問題は放射状の歪みです。画像のピクセルポイントは、歪みの中心を中心として放射方向に沿って位置のずれがあり、画像が変形します。

ここでは、それぞれ糸巻き型歪みと樽型歪みを記載します。糸巻き型歪曲収差:鞍型歪曲収差とも呼ばれ、視野内の端領域の拡大率が光軸の中心領域の拡大率よりはるかに大きい歪曲収差です。望遠レンズでよく見られます(上の写真)。樽型歪曲収差は、糸巻き型歪曲収差の逆で、視野内の光軸中央部の倍率が周辺部に比べて大幅に大きくなる歪曲収差のことで、広角レンズや魚眼レンズによく見られます(上図右)。

画像平面からピクセル平面へ

カメラジオメトリでは、ピクセル平面上の点をカメラ座標にマッピングする方法について注意すべき点が 2 つあります。1 つ目は、ピクセルとメートル間の単位変換です。カメラ座標系は通常メートル単位ですが、画像平面はピクセル単位です。 2 番目のポイントは、通常は画像内のポイントの座標です。

バイアス

通常、画像平面では画像の左上隅を原点として使用し、カメラ座標系ではカメラの中心を原点として使用します。このように、カメラ座標の中心と画像の中心の間には偏差があり、その偏差はカメラ ポイント (x、y、z) の合計で表されます。

単位変換

ここで、k と l は 1 メートルあたりのピクセル数を表します。これら 2 つのパラメータは、カメラの感光素子によって決まります。ピクセルが正方形ではないため、k 値と l 値が等しくない場合があります。

fk と fl を表すために alpha または beta を使用でき、これにより式を次の式に簡略化できます。

(u,v) と z は定数ではなく、変数です。u,v と x,y は線形関係にありません。変数 z もあるため、u,v から x,y への線形変換を見つけたいと考えています。ここで、同次座標の概念を紹介します。

<<:  AIを活用してパイロットプロジェクトを計画する方法

>>:  この世界規模の問題に対して、ドローンはどれほどの助けとなるのでしょうか?

ブログ    
ブログ    

推薦する

人工知能は社会統治の近代化を効果的に促進できる

現在、人類は急速に人工知能の時代に突入しています。人工知能技術の急速な発展、モノのインターネット、ビ...

AIは世界を席巻しており、すべての関係者がアプリケーションの導入に力を入れており、競争は激化している。

テンセントが最近テスラの株式5%を購入したというニュースは業界で大きな話題を呼び、人工知能(AI)分...

英国最高裁:AIは「発明者」として記載できない

英国最高裁判所は12月21日、特許出願において人工知能(AI)を発明者として記載することはできないと...

ChatGPT Civilization Simulator が再びオンラインになりました!クリックひとつで、火山噴火の日の古代都市ポンペイにタイムスリップ

GPT-4のアップデート機能により、AIを使って歴史をシミュレートすることは、単なる「テキストロール...

視覚畳み込みニューラルネットワークモデルを習得し、画像認識技術の分野を探索します。

ディープラーニングに取り組む過程で、著者が最も興味を持ったのは、オブジェクトを分類するためのいくつか...

可用性の高い Java 分散システムの構築: システムの安定性と信頼性の確保

今日のインターネット アプリケーション開発では、可用性の高い分散システムを構築することが、システムの...

あなたの仕事はAIに置き換えられるでしょうか?李開復氏は、これらの4種類の仕事について心配する必要はないと述べている。

[[255576]]最近、李開復氏はタイム誌に「人工知能は強力だが、誤解されている。労働者を守るに...

AIとIoTが健康や医療のスマートイノベーションに貢献

中国の医療サービス市場の規模は巨大です。中国の医療サービス業界は、国家政策の推進により、デジタル化と...

Microsoft が大規模コード モデル WaveCoder をリリースしました。 4つのコードタスクと20,000のインスタンスデータセットにより、LLMの一般化能力が大幅に向上しました。

高品質のデータ セットを使用して命令のチューニングを実行すると、大規模なモデルのパフォーマンスを迅速...

検索拡張生成による AI 幻覚問題の解決

ラフル・プラダン出典| https://www.infoworld.com/article/3708...

Google は患者の質問に答える医療 AI チャットボット Med-PaLM 2 を病院でテスト中

ウォール・ストリート・ジャーナルによると、グーグルのMed-PaLM 2は今年4月からメイヨー・クリ...

フォーカス | 機械学習に役立つ 7 つのクラウド コンピューティング サービス

データ分析は、多くの組織がクラウド コンピューティング プラットフォーム上で実行する主要なコンピュー...

...

孫玄、Zhuanzhuan 社アーキテクチャアルゴリズム部門: AI によるマイクロサービスアーキテクチャ

[51CTO.com からのオリジナル記事] 2014 年頃から、マイクロサービス アーキテクチャの...