携帯電話が1秒で3Dホログラムを生成する、MITチームの新しい研究

携帯電話が1秒で3Dホログラムを生成する、MITチームの新しい研究

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

マウスのおもちゃとカレンダー定規の間で写真の焦点距離を自由に切り替えることができます。

写真内の任意のオブジェクトに焦点を合わせることもでき、さまざまな深度にあるさまざまなオブジェクトの写真を表示できます。

この魔法の絵は「すべての物体情報」を統合したホログラムです。

このタイプのホログラムを生成するには、多くの場合、多くの計算が必要になります。

しかし、MITのチームは、複雑な機器や数時間の待ち時間を必要とせず、スマートフォンでこのようなホログラムを生成するのに1秒もかからない新しいアルゴリズムを開発しました。

ご存知のとおり、昨年 11 月、サムスンの科学者が 3D ホログラフィック ビデオを生成するために使用したプロセッサは、携帯電話に組み込むにはまだ大きすぎました。

では、3D ホログラムを素早く生成するこの方法はどのようにして実現されるのでしょうか?

ニューラルネットワークを使用して「ケーキを素早く切る」

まず、ホログラムとは何でしょうか?

たとえば、Visa クレジットカードの鳩は、偽造防止マークとしてホログラムを使用しています。

[[387030]]

ホログラムは「すべての情報」を意味し、この画像には物体の振幅情報位相情報の両方が含まれています。

通常のカメラで撮影した写真には、被写体の振幅情報(明るさや暗さ)しか記録されず、位相情報(距離)を直接保存することはできません。

私たちが普段目にする2D写真に「立体感がない」と感じるのもこのためです。

以前は、コンピューターが 360° ホログラムを生成する場合、通常は複数の角度から干渉と回折を行い、位相情報をつなぎ合わせて振幅情報と重ね合わせて画像を生成する必要がありました。

複数の角度から位相情報を生成することは、球形のケーキに 8 つの正確な切り込みを入れて 8 つの部分に分割し、各部分の位相を再現するようなものです。

しかし、この方法では膨大な計算量が必要となり、時間がかかり、スマートフォンで実行することはまったく不可能です。

そこで、MIT チームは、ディープラーニング手法を使用して、3 つの角度だけを使用して「ケーキ」を 8 つに分割し、ホログラムを生成できるのではないかと考えました。

研究者たちは、ニューラル ネットワークをトレーニングするために、振幅と位相の情報を含む 4,000 枚の画像と、これらの画像に対応する 3D ホログラムを慎重に選択しました。

全体的な考え方は次のとおりです。オブジェクトの位相情報を取得した後、ポイント クラウドが生成され、残差ニューラル ネットワークと組み合わせて全体的なホログラムが生成されます。

それで、このホログラムはどのように機能するのでしょうか?

あらゆるオブジェクトにフォーカスでき、メモリ使用量は1MB未満

ニューラル ネットワークを使用して予測を行う場合、ホログラムを生成するのに必要なメモリは640 KB未満であることがわかりました。

このニューラル ネットワーク モデルをコンシューマー グレードの GPU で使用すると、1 秒あたり1080pの解像度で 60 色の 3D ホログラムを生成できます。

iPhone 11 Pro などのスマートフォンでは、1 秒あたり1.1 個のホログラムを生成できます。Google Edge TPU では、1 秒あたり2 個のホログラムを生成できます。

アニメキャラクターの Big Buck Bunny を例に挙げてみましょう。その深度マップは右下隅にあります。

図からわかるように、ニューラル ネットワークを使用して生成されたホログラフィック画像 (右) は、元の方法を使用して生成されたホログラフィック画像 (左) とほぼ同じです。

さらに、遠くの小さな黄色い花でも、近くのウサギの目でも、すべて完璧に焦点を合わせることができます。

表面的には同じに見えても、振幅と位相の情報はどうでしょうか?

図からわかるように、ニューラル ネットワークによって予測された振幅と位相の情報も真の値に非常に近いです。

実際の写真も、実際に生成されたターゲットに非常に近いです。

もちろん、細かい部分では若干の違いはありますが。

既存の VR および AR ソリューションと比較して、3D ホログラムは 3D 視覚化のための別の実装ソリューションです。

しかし、VR を使用する場合、ユーザーは実際には 2D ディスプレイを見つめているため、3D の錯覚が生じ、視覚疲労やめまいなどの症状を経験する可能性があります。

3D ホログラムにより、目の焦点を調整し、前景と背景に交互に焦点を合わせることが可能になり、この症状を効果的に緩和できます。

次に、チームは視線追跡技術を追加して、ユーザーの視線がどこを向いていても部分的な高解像度ホログラムが生成されるようにします。

[[387036]]

この方式では、コンピューターはホログラムを部分的に生成するだけでよく、リアルタイムで使用すると効果はより速く、より良くなります。

また、この研究はソニーがスポンサーになったので…

[[387037]]

著者について

[[387038]]

論文の筆頭著者である Shi Liang 氏は、2014 年に北京航空航天大学を卒業し、スタンフォード大学で修士号を取得しました。現在は MIT の博士課程に在籍しています。彼の研究分野には、VR/AR、機械学習、コンピューター グラフィックスなどがあります。

[[387039]]

論文の2番目の著者であるLi Beichen氏は、2018年に清華大学を卒業し、現在はMITの博士課程に在籍しています。彼の研究分野は、コンピューターグラフィックスにおける機械学習の応用です。

論文の宛先:
https://www.nature.com/articles/s41586-020-03152-0.pdf

<<:  ケータリングロボットが市場発展の時代を先導

>>:  人工知能はビッグデータ天体物理学の時代へのマスターキーとなるのでしょうか?

ブログ    
ブログ    

推薦する

...

...

2021年も人気が続く5種類のロボット

ロボットは長年にわたり開発され、無人運転の需要が継続的に解放され、主要なコア技術が継続的に進歩するに...

可用性の高い Java 分散システムの構築: システムの安定性と信頼性の確保

今日のインターネット アプリケーション開発では、可用性の高い分散システムを構築することが、システムの...

2021年以降の人工知能トレンドに関する5つの予測

[[377548]]アンドリュー・ン教授(スタンフォード大学コンピュータサイエンスおよび電気工学准教...

なぜ男性ロボットの方がユーザーに人気があるのでしょうか?その魅力は何でしょうか? 3つの特徴が鍵となる

人類が科学技術の時代に入り、初期の単純な産業時代から複雑で多面的なハイテク産業時代へと進化して数百年...

業界のハイエンド複合AI人材を育成するために、第5回AICAチーフAIアーキテクトトレーニングプログラムが開始されました。

10月15日、国家深層学習技術応用工学研究所と百度が共同で開始した第5回AICAチーフAIアーキテ...

将来、ロボットは人間よりもはるかに強力になります。ロボットは人間に反抗するでしょうか?

私たちは長い間、ロボットを私たちの世界から締め出すことができるのか、あるいは人間は人工知能(あるいは...

LangChain と Redis が協力して何かを実現しています!財務文書分析の精度を向上させるツールを作成する

著者 | タニスタ編纂者:Xing Xuan制作:51CTO テクノロジースタック(WeChat I...

AIが不動産業務を簡素化する方法

最近、不動産会社は人工知能ソリューションへの投資を増やしており、この傾向は2024年にさらに強まるで...

...

人工知能と機械学習はエンタープライズアーキテクチャの一部となっている

これはおそらく、世界的なCOVID-19パンデミックによるものか、あるいはコンピューティング能力の継...

...

人工知能技術に注目し導入すべき3つの理由

AI の導入が拡大しているにもかかわらず、多くの IT リーダーは AI のリスクと機会を取り巻く不...