ウェーディングビジョン:主要技術からインテリジェント機器へ

ウェーディングビジョン:主要技術からインテリジェント機器へ

海はなぜ青いのでしょうか?この古くて神秘的な疑問は常に人々の興味をそそってきました。論文「水関連の視覚」では、光と水の物質的相互作用とクロスメディア伝播メカニズムに基づく水関連の画像化と画像分析の分野における最新の研究の進歩を紹介し、水関連の視覚観察とシステム開発で達成された一連の科学研究成果を示し、海洋科学、海洋牧場、海洋安全の分野における科学研究と技術の向上に新たな活力を注入しています。水関連のビジュアルの発展の頂点に立ち、雲、雨、霧、雪、川、湖、海を越え、水関連の探索の新しい時代が私たちの前に広がります。この記事では、私たちの川のターコイズブルーの水と青い海の謎を解き明かします。

インテリジェント分野の主なデータは、依然として視覚、聴覚、テキスト、その他の様式です。その中でも、ビジョンは現在のインテリジェント アプリケーションの核心分野であり、主戦場でもあります。現在、視覚研究は主に空気と真空に焦点を当てており、陸地の表面積の大部分を占めるさまざまな水域、気象現象、さらには生体組織における視覚は体系的に研究されていません。

水は生命の源です。川、湖、海、そして雲、霧、雨、雪はすべてインテリジェンスの分野における重要なブルーオーシャンであり、さまざまな応用シナリオがあります。視覚の基礎は光学です。水中や媒体を介した光の伝播メカニズムは、水中イメージングの本質であり、水中視覚研究の基礎です。李雪龍教授は「水中光学」と「水中視覚」の実践にこだわり、電子工学ジャーナルに42ページ、5万語の論文「水中視覚」を執筆し、人工知能によって可能になった水中視覚を実証した。将来、マシンビジョンと光学画像技術を組み合わせて、雨や霧を透かし、湖や海を越えて、このインテリジェントな「ブルーオーシャン」に入ることができるでしょうか?

李雪龍。ウォータービジョン。Journal of Electronics、2023 https://doi.org/10.12263/DZXB

ウォータービジョンは、光と水の物質的相互作用とクロスメディア伝播メカニズムに基づいています。専用の光学ハードウェアと視覚アルゴリズムの技術システムを構築することにより、水環境における視覚画像信号のインテリジェント処理と分析、および高度なインテリジェントウォータービジョン機器の開発に関連するエンジニアリング問題を解決し、水環境におけるマシンビジョンの科学的応用を探求します。水中視覚は、周辺地球安全保障(vicinagearth=周辺地球)システムにおける水中安全保障の重要な支援として、我が国の領海の防衛、保護、​​生産、安全、救助に大きな意義を持っています。

海には13.5億立方キロメートル以上の水が含まれており、地球上の水の総量の約97%を占めています。海には、まだ調査も開発もされていない重要な資源が多数存在しており、地球上で最も重要な水環境です。一般的な川、湖、海などの典型的な水域に加えて、陸上の雲、雪、雨、霧などの気象条件によっても複雑な水環境が作り出されることがあります。他の惑星には、地球外の海などの水環境が存在する可能性もあります。

海水の色を認識する主なプロセス(インターネットからの画像)

そのため、水環境の調査と研究は非常に重要なテーマです。光は水環境を検知する重要な手段です。光検知結果を分析する水中ビジョンは、海洋生態、炭素収支、気候変動、海洋熱力学、過酷な環境の検知などの問題に対して重要な研究意義を持っています。

水に関する視覚技術の発達は、水環境や水資源の開発に対する理解に影響を与えています。一般的な水生環境には、浮遊粒子、可溶性有機物、植物プランクトンなどのさまざまな複雑な要素が含まれており、光の伝播経路には複数の媒体が関与することがよくあります。そのため、水中での光の伝播メカニズムは空気中よりも複雑です。光と水および水に含まれる物質との相互作用、および光のクロスメディア伝播メカニズムを研究することが、ウォータービジョンの基礎となります。

光と水の物質相互作用と媒質間伝播メカニズム

この記事では、「なぜ海は青いのか」という普遍的な疑問から始めて、水による光の吸収、散乱、減衰のメカニズム、水中視覚タスクへの影響、既存の水画像処理および分析方法を体系的に紹介します。本稿では、水体の光学特性と画像劣化のメカニズムに基づき、水関連画像化や画像分析など、水関連視覚の鍵となる技術と設備の探究におけるチームの成果を紹介する。チームは、全海深超高精細カメラ海通、全海深3Dカメラ、全海深高精細カメラなどを相次いで開発し、色彩、強度、偏光、スペクトルなどの観点から総合的かつ体系的な水中観測・分析設備開発能力を形成し、全海深光学視覚技術のギャップを埋めた。

水中視覚研究の難しさ

視覚画像信号のインテリジェントな処理と分析の分野は、複雑な環境、物体の検出と認識の難しさ、複雑なデータの取得と注釈、ビッグデータと高解像度、水中視覚の問題、リアルタイム要件、データのプライバシーとセキュリティ、ドメイン間の一般化など、さまざまな課題に直面しています。

まず、水遊びの環境は通常、波、潮汐、光の変化、水質の変化など、さまざまな複雑な要因の影響を受けます。これらの要因により、渡渉画像の品質は時間と空間によって大きく変化し、物体の検出、追跡、認識のタスクがさらに複雑になります。水媒体の光学特性によって物体の形状、色、質感が乱れる可能性があり、物体の検出と識別が困難になります。教師あり学習を実行するには、オブジェクトと環境の属性を正確にマークするなど、データを正確にラベル付けする必要がありますが、そのためには注釈者に高度な専門知識と経験が必要です。

第二に、現代の高解像度カメラ技術は、データ頻度の高い大量の水関連の画像データを生成するため、データの処理と管理の課題が増加します。これらの大規模なデータセットを処理するには、タイムリーなデータ分析と保存を保証するために、高性能なコンピューティング リソースと効果的なデータ管理戦略が必要です。水中環境での画像やビデオは、水中での光散乱や吸収の影響を受けることが多く、画像がぼやけたり、色が歪んだりすることがあります。これにより、水中画像およびビデオ分析の複雑さが増し、これらの問題を克服して画像品質と物体認識パフォーマンスを向上させるための特殊なアルゴリズムを開発する必要があります。

繰り返しになりますが、洪水予測や海上救助などの特定の重要なアプリケーション シナリオでは、システムは水関連の画像データをリアルタイムで処理できる必要があります。これには、システムが即座に応答し、リアルタイムで決定を下す能力を確保するための効率的なアルゴリズムとハードウェア アクセラレーションが必要です。さらに、一部の画像には個人の身元や機密性の高い地理的位置などの機密情報が含まれている可能性があることを考慮すると、データのプライバシーとセキュリティは無視できない問題になります。したがって、規制や倫理の要件に準拠しながらデータのプライバシーとセキュリティを保護するための対策を講じる必要があり、これによりデータの処理と保存の複雑さも増します。

最後に、海洋環境と内水域など、異なる水生環境で収集されたデータには違いがある可能性があります。したがって、さまざまなシナリオで優れた一般化パフォーマンスを発揮するには、モデルがドメイン間で一般化する能力を持っている必要があります。これには、大規模で多様なデータセットと強力な転移学習技術のサポートが必要です。

そのため、上記の課題を解決するためには、機械学習、光学、海洋学などの複数の分野の知識とマシンビジョンを組み合わせた学際的な研究と技術革新を実施し、水関連のビジョンアプリケーションの開発を促進する必要があります。

水中視覚に関する研究の進歩

マシン ビジョンは、インテリジェント時代の「目」です。センサーでキャプチャした画像に基づいて、スマート デバイスが機能を実行するための操作ガイダンスを提供します。これには、光学照明、光学イメージング、信号処理、画像処理、画像強化、マルチモーダル コグニティブ コンピューティング、画像インテリジェント分析アルゴリズムなどの複数のテクノロジが含まれます。

コンピューター ビジョン テクノロジの継続的な発展により、ますます多くの新しい視覚アルゴリズムとテクノロジが提案され、ターゲット検出、スマート シティ、リソース探索などの多くの分野のエンジニアリングに成熟して適用されてきました。しかし、現在、マシンビジョンとインテリジェントシステムに関する一般的な研究は、主に空気と真空媒体での視覚タスクに焦点を当てています。水関連のフロントエンドイメージングのメカニズムとプロセスに関する研究は十分に深くなく、水関連の画像とビデオのインテリジェント処理と分析に関する研究は体系的ではありません。

水中視覚技術は、依然として従来の処理方法に依存しており、色や形などの特徴のみでターゲットを識別します。

フロントエンド取得装置を水環境で使用する場合、水による光の反射、屈折、吸収、散乱は、画像結果の視認性、解像度、コントラストに大きな影響を与えます。特に複雑な水環境では、対象画像に色かぶり、色あせ、歪みが生じ、コントラストが低く、明るさの分布が不均一になるため、対象画像を正確に識別することが難しく、処理や分析に直接使用することはできません。

近年のインテリジェント信号処理技術の大きな進歩により、今日の視覚技術は光電子画像システムを使用して画像情報を収集し、インテリジェント技術で処理した後、対象特性を識別、分析、判断します。ディープラーニング、計算画像、3Dビジョン、組み込みビジョンシステムなどの技術と密接に統合されています。ただし、フロントエンドイメージングデバイスとバックエンド分析アルゴリズムの関係は見落とされやすく、フロントエンドの光伝播メカニズムが複雑なため、水関連の視覚分野ではその影響はさらに大きくなります。

(a) 単一媒体の水遊び画像の色の変化と (b) 色補正後の画像

(a) 単一の中程度の水上歩行画像のぼやけと (b) ぼやけを除去した画像

理想的な完全な水中視覚システムは、光学デバイスと非接触センサーを使用して、光伝播経路に沿って水域内の実際の物体の画像を部分的または全体的に自動的に受信して処理し、フロントエンドとバックエンドのセンシングとコンピューティングの組み合わせを通じて必要な情報を効率的かつ正確に取得します。

水視覚は、光と水の物質的相互作用とクロスメディア伝播メカニズムに基づいています。専用の光学ハードウェアと視覚アルゴリズムの技術システムを構築することにより、水環境における視覚画像信号のインテリジェント処理と分析、および高度なインテリジェント水視覚装置の開発に関連するエンジニアリング問題を解決し、水環境におけるマシンビジョン技術の科学的応用を探求します。地域安全保障システムにおける水中安全保障の重要な支援として、我が国の領海の防衛、保護、​​生産、安全、救助に大きな意義を持っています。

(1)全深度超高精細カメラ:水深1万メートルの有人潜水艇「フェンドージ」のテレビ生中継の核心設備。 2020年10月、同研究所が開発した全深度超高精細カメラが1万メートル潜水ライブ中継の中核機器となり、世界初となる1万メートルライブ中継を実現した。

海洋深度全域超高解像度カメラ

(2)「海通」カメラ:我が国が独自に開発した初の全深度ハイビジョンカメラ。 2017年3月、同社が開発した「海通」カメラは天亜着陸船に同行し、水深1万メートルまで数回潜水し、最大潜水深度は1万909メートルに達した。記録された映像は、マリアナ海溝の海洋生物、海洋物理などの多分野にわたる研究に重要な原資料を提供した。貴重な海洋観測データが多数得られ、海洋科学研究の分野における多くの空白を埋めることができました。ミノカサゴは水深8,152メートルで初めて記録されましたが、これは当時国際的に魚が生存することが観察された最高水深でした。

(3)小型全深度ハイビジョンカメラ2020年4月から6月にかけて、同社が開発した小型全海深ハイビジョンカメラが、唯一の光学撮影装置として無人潜水艇「海斗1号」に搭載され、我が国の実用無人潜水艇として初の1万メートル海上試験を実施し、最大潜水深度は1万907メートルに達し、我が国の潜水艇の最大潜水深度記録を更新した。

「海の瞳」カメラ

ヴィシナアースセキュリティ

ローカルセキュリティ技術システムは、最先端の学際的技術分野に属し、低高度立体輸送、災害救助、港湾水中監視、海洋牧場などの一連の応用シナリオに直面し、低高度セキュリティ、水中セキュリティ、クロスドメインセキュリティをカバーしています。ローカルスペースの防衛、保護、​​生産、安全、救助のニーズを満たす、多様化、クロスドメイン、立体、協調、インテリジェントな技術システムです。この技術体系は、他の多くの既存の分野/技術体系から独立しているわけではなく、コヒーレント光検出、安定検出、マルチモーダル認知コンピューティング、群知能意思決定、水光学、クロスドメインリモートセンシングなど、6つの主要な研究/技術方向が含まれています。同時に、より広く空、宇宙、陸、海、井戸のネットワークに向けられており、航空宇宙、深宇宙と深海、機械電子、情報/量子通信、新素材、エネルギーと電力など、多くの分野と技術分野の相互統合に関与しており、国防の安全、社会の安定、経済発展にとって大きな意義を持っています。

従来の近宇宙や近地球空間とは異なり、近地球(Vicinagearth)空間は、海抜1,000メートル(太陽光の透過限界、南シナ海の平均水深)から海抜10,000メートル(民間航空路線の高度)までの海域、陸地、空域を指します。このうち核心領域は海面下100メートル(大陸棚の平均水深)から地上1,000メートル(低高度空域の開放高度)までであり、基本的には人類の主な生産と生活、および現代戦の低高度、超低高度、水中戦闘空間をカバーしています。このうち、Vicinage は、neighbor と同じ古フランス語/ラテン語の visnage/vicinus に由来しています。

著者について

西北工科大学学術委員会副委員長であり、光電子工学・情報研究所 (iOPEN) の教授である Li Xuelong 氏は、ローカル セキュリティ、画像処理、イメージングに重点を置いています。メールアドレス: [email protected]

<<:  マイクロソフトのAI研究者が、クラウドストレージリンクの設定ミスにより、大量の内部データを誤って公開した。

>>:  入力から出力までの「モーダル自由度」を実現し、NUSの中国チームがNExT-GPTをオープンソース化。AGIに最も近い最も統一されたマルチモーダルモデルがここにあります。

ブログ    
ブログ    

推薦する

2030 年の AI はどのようになっているでしょうか?専門家が10の予測を発表

2020 年も終わりに近づいていますが、AI はさまざまなことに役立っています。車を運転したり、音楽...

...

...

賢い負荷分散アルゴリズム: 頭を使って

負荷分散技術は現在ではどこにでもありますが、基本的にはまだ使用段階であり、その核心は十分に理解されて...

...

自動車業界における人工知能の5つの主要な応用

[51CTO.com からのオリジナル記事] 自動車業界における人工知能の応用を考えるとき、最初に思...

私が嫌いな人工知能

以前は、機械学習に少しイライラしていました。一方では、メディアやトレーニング機関が機械学習を汎用人工...

プロジェクト Digging 21 - 軽量 LLM エージェントの構築方法

8 月 12 日、Juli プロジェクト シリーズの第 21 回「大規模言語モデルのトレーニングとア...

...

...

仕事の未来: 2030 年までに消滅する仕事はどれでしょうか?

[[397136]]自動化と人工知能が急速に進歩する時代において、2030年までに仕事は消滅するで...

時間はお金だというのは本当です!この日本人男性は9日間で5千円を費やして「タイムマシン」を作ったが、1分巻き戻すのにかかる費用はたった1円だ。

子どもたちが小学生の頃、時間を大切にすることを教えるために、大人たちは「時間はお金であり、お金で時間...

IBM、生成AIの基礎モデルを発表

IBM Granite ファミリーの基礎モデルは、生成 AI を自然言語およびコーディング タスクに...

Googleは「ロボット工学の3原則」をシステムに導入:ロボットが人間に危害を加えることを厳しく防止

1月5日、有名なSF作家アイザック・アシモフが「ロボット工学三原則」を提唱しました。 Googleは...

...