携帯電話が1秒で3Dホログラムを生成する、MITチームの新しい研究

携帯電話が1秒で3Dホログラムを生成する、MITチームの新しい研究

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

マウスのおもちゃとカレンダー定規の間で写真の焦点距離を自由に切り替えることができます。

写真内の任意のオブジェクトに焦点を合わせることもでき、さまざまな深度にあるさまざまなオブジェクトの写真を表示できます。

この魔法の絵は「すべての物体情報」を統合したホログラムです。

このタイプのホログラムを生成するには、多くの場合、多くの計算が必要になります。

しかし、MITのチームは、複雑な機器や数時間の待ち時間を必要とせず、スマートフォンでこのようなホログラムを生成するのに1秒もかからない新しいアルゴリズムを開発しました。

ご存知のとおり、昨年 11 月、サムスンの科学者が 3D ホログラフィック ビデオを生成するために使用したプロセッサは、携帯電話に組み込むにはまだ大きすぎました。

では、3D ホログラムを素早く生成するこの方法はどのようにして実現されるのでしょうか?

ニューラルネットワークを使用して「ケーキを素早く切る」

まず、ホログラムとは何でしょうか?

たとえば、Visa クレジットカードの鳩は、偽造防止マークとしてホログラムを使用しています。

[[387030]]

ホログラムは「すべての情報」を意味し、この画像には物体の振幅情報位相情報の両方が含まれています。

通常のカメラで撮影した写真には、被写体の振幅情報(明るさや暗さ)しか記録されず、位相情報(距離)を直接保存することはできません。

私たちが普段目にする2D写真に「立体感がない」と感じるのもこのためです。

以前は、コンピューターが 360° ホログラムを生成する場合、通常は複数の角度から干渉と回折を行い、位相情報をつなぎ合わせて振幅情報と重ね合わせて画像を生成する必要がありました。

複数の角度から位相情報を生成することは、球形のケーキに 8 つの正確な切り込みを入れて 8 つの部分に分割し、各部分の位相を再現するようなものです。

しかし、この方法では膨大な計算量が必要となり、時間がかかり、スマートフォンで実行することはまったく不可能です。

そこで、MIT チームは、ディープラーニング手法を使用して、3 つの角度だけを使用して「ケーキ」を 8 つに分割し、ホログラムを生成できるのではないかと考えました。

研究者たちは、ニューラル ネットワークをトレーニングするために、振幅と位相の情報を含む 4,000 枚の画像と、これらの画像に対応する 3D ホログラムを慎重に選択しました。

全体的な考え方は次のとおりです。オブジェクトの位相情報を取得した後、ポイント クラウドが生成され、残差ニューラル ネットワークと組み合わせて全体的なホログラムが生成されます。

それで、このホログラムはどのように機能するのでしょうか?

あらゆるオブジェクトにフォーカスでき、メモリ使用量は1MB未満

ニューラル ネットワークを使用して予測を行う場合、ホログラムを生成するのに必要なメモリは640 KB未満であることがわかりました。

このニューラル ネットワーク モデルをコンシューマー グレードの GPU で使用すると、1 秒あたり1080pの解像度で 60 色の 3D ホログラムを生成できます。

iPhone 11 Pro などのスマートフォンでは、1 秒あたり1.1 個のホログラムを生成できます。Google Edge TPU では、1 秒あたり2 個のホログラムを生成できます。

アニメキャラクターの Big Buck Bunny を例に挙げてみましょう。その深度マップは右下隅にあります。

図からわかるように、ニューラル ネットワークを使用して生成されたホログラフィック画像 (右) は、元の方法を使用して生成されたホログラフィック画像 (左) とほぼ同じです。

さらに、遠くの小さな黄色い花でも、近くのウサギの目でも、すべて完璧に焦点を合わせることができます。

表面的には同じに見えても、振幅と位相の情報はどうでしょうか?

図からわかるように、ニューラル ネットワークによって予測された振幅と位相の情報も真の値に非常に近いです。

実際の写真も、実際に生成されたターゲットに非常に近いです。

もちろん、細かい部分では若干の違いはありますが。

既存の VR および AR ソリューションと比較して、3D ホログラムは 3D 視覚化のための別の実装ソリューションです。

しかし、VR を使用する場合、ユーザーは実際には 2D ディスプレイを見つめているため、3D の錯覚が生じ、視覚疲労やめまいなどの症状を経験する可能性があります。

3D ホログラムにより、目の焦点を調整し、前景と背景に交互に焦点を合わせることが可能になり、この症状を効果的に緩和できます。

次に、チームは視線追跡技術を追加して、ユーザーの視線がどこを向いていても部分的な高解像度ホログラムが生成されるようにします。

[[387036]]

この方式では、コンピューターはホログラムを部分的に生成するだけでよく、リアルタイムで使用すると効果はより速く、より良くなります。

また、この研究はソニーがスポンサーになったので…

[[387037]]

著者について

[[387038]]

論文の筆頭著者である Shi Liang 氏は、2014 年に北京航空航天大学を卒業し、スタンフォード大学で修士号を取得しました。現在は MIT の博士課程に在籍しています。彼の研究分野には、VR/AR、機械学習、コンピューター グラフィックスなどがあります。

[[387039]]

論文の2番目の著者であるLi Beichen氏は、2018年に清華大学を卒業し、現在はMITの博士課程に在籍しています。彼の研究分野は、コンピューターグラフィックスにおける機械学習の応用です。

論文の宛先:
https://www.nature.com/articles/s41586-020-03152-0.pdf

<<:  ケータリングロボットが市場発展の時代を先導

>>:  人工知能はビッグデータ天体物理学の時代へのマスターキーとなるのでしょうか?

ブログ    
ブログ    

推薦する

アルゴリズム エンジニアはなぜ一日中データを扱うのでしょうか。また、どのような種類のデータを扱うのでしょうか。

[[353273]]なぜ私たちはモデルをほとんど作らないのでしょうか?アルゴリズムエンジニアの仕事...

これから起こることは避けられません。AIサイバー犯罪はすでにあなたの近くにあります

数か月前の2017 GMICカンファレンスで、ホーキング博士は再びAI脅威論を提起し、「強力なAIの...

GenAI が近づくにつれて、データ ガバナンスはどのように進化するべきでしょうか?

著者 | アイザック・サコリック編集者 | ヤン・ジェン制作:51CTO テクノロジースタック(We...

Anthropic が「GPT-4 のライバル」言語モデル Claude 2 をリリース: パフォーマンスが向上し、長いテキストもサポート

7 月 12 日のニュース、Anthropic は最近、新しい Claude 2 言語モデルをリリー...

...

百度研究所が2020年のAI技術トレンド予測トップ10を発表

一歩前進、そしてまた一歩前進し、2019年が終わりました。 12月24日、百度研究所は2020年のト...

9 つの SOTA GNN よりも強力です。 Google Brainが新しいグラフニューラルネットワークGKATを提案

[[413820]]グラフは、ソーシャル ネットワークからバイオインフォマティクス、ロボット工学の...

今日の AI 開発者にとって必須のローコード ツール 22 選

翻訳者 |陳俊レビュー | Chonglou今日、人工知能ツール (AI) は非常に強力です。開発チ...

...

AIOps の 7 つの主要機能

企業ネットワークが進化し続け、特にデジタル ビジネス アプリケーションへの移行が進むにつれて、サービ...

人工知能とプライバシーの議論: AIの透明性の長所と短所を理解する

[[334476]] AI がますます多くの業界で採用されるようになるにつれ、AI のユーザーは、実...

なぜ今、AI 画像はすべて女性なのでしょうか?人間とコンピュータの相互作用のメンタルモデルから始めましょう

興味深い質問です。Siri、Cortana、Alexa など、ほとんどの AI ロボットや音声アシス...

最強のやつでもGPT-4Vに合格できないの?大学入試をベースとしたテストベンチマーク「MMMU」が誕生

GPT-4V と大学生のどちらが良いでしょうか?まだ分​​かりませんが、新しいベンチマーク データセ...