携帯電話が1秒で3Dホログラムを生成する、MITチームの新しい研究

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

マウスのおもちゃとカレンダー定規の間で写真の焦点距離を自由に切り替えることができます。

写真内の任意のオブジェクトに焦点を合わせることもでき、さまざまな深度にあるさまざまなオブジェクトの写真を表示できます。

この魔法の絵は「すべての物体情報」を統合したホログラムです。

このタイプのホログラムを生成するには、多くの場合、多くの計算が必要になります。

しかし、MITのチームは、複雑な機器や数時間の待ち時間を必要とせず、スマートフォンでこのようなホログラムを生成するのに1秒もかからない新しいアルゴリズムを開発しました。

ご存知のとおり、昨年 11 月、サムスンの科学者が 3D ホログラフィックビデオを生成するために使用したプロセッサは、携帯電話に組み込むにはまだ大きすぎました。

では、3D ホログラムを素早く生成するこの方法はどのようにして実現されるのでしょうか?

ニューラルネットワークを使用して「ケーキを素早く切る」

まず、ホログラムとは何でしょうか?

たとえば、Visa クレジットカードの鳩は、偽造防止マークとしてホログラムを使用しています。

[[387030]]

ホログラムは「すべての情報」を意味し、この画像には物体の振幅情報と位相情報の両方が含まれています。

通常のカメラで撮影した写真には、被写体の振幅情報（明るさや暗さ）しか記録されず、位相情報（距離）を直接保存することはできません。

私たちが普段目にする2D写真に「立体感がない」と感じるのもこのためです。

以前は、コンピューターが 360° ホログラムを生成する場合、通常は複数の角度から干渉と回折を行い、位相情報をつなぎ合わせて振幅情報と重ね合わせて画像を生成する必要がありました。

複数の角度から位相情報を生成することは、球形のケーキに 8 つの正確な切り込みを入れて 8 つの部分に分割し、各部分の位相を再現するようなものです。

しかし、この方法では膨大な計算量が必要となり、時間がかかり、スマートフォンで実行することはまったく不可能です。

そこで、MIT チームは、ディープラーニング手法を使用して、3 つの角度だけを使用して「ケーキ」を 8 つに分割し、ホログラムを生成できるのではないかと考えました。

研究者たちは、ニューラルネットワークをトレーニングするために、振幅と位相の情報を含む 4,000 枚の画像と、これらの画像に対応する 3D ホログラムを慎重に選択しました。

全体的な考え方は次のとおりです。オブジェクトの位相情報を取得した後、ポイントクラウドが生成され、残差ニューラルネットワークと組み合わせて全体的なホログラムが生成されます。

それで、このホログラムはどのように機能するのでしょうか?

あらゆるオブジェクトにフォーカスでき、メモリ使用量は1MB未満

ニューラルネットワークを使用して予測を行う場合、ホログラムを生成するのに必要なメモリは640 KB未満であることがわかりました。

このニューラルネットワークモデルをコンシューマーグレードの GPU で使用すると、1 秒あたり1080pの解像度で 60 色の 3D ホログラムを生成できます。

iPhone 11 Pro などのスマートフォンでは、1 秒あたり1.1 個のホログラムを生成できます。Google Edge TPU では、1 秒あたり2 個のホログラムを生成できます。

アニメキャラクターの Big Buck Bunny を例に挙げてみましょう。その深度マップは右下隅にあります。

図からわかるように、ニューラルネットワークを使用して生成されたホログラフィック画像 (右) は、元の方法を使用して生成されたホログラフィック画像 (左) とほぼ同じです。

さらに、遠くの小さな黄色い花でも、近くのウサギの目でも、すべて完璧に焦点を合わせることができます。

表面的には同じに見えても、振幅と位相の情報はどうでしょうか?

図からわかるように、ニューラルネットワークによって予測された振幅と位相の情報も真の値に非常に近いです。

実際の写真も、実際に生成されたターゲットに非常に近いです。

もちろん、細かい部分では若干の違いはありますが。

既存の VR および AR ソリューションと比較して、3D ホログラムは 3D 視覚化のための別の実装ソリューションです。

しかし、VR を使用する場合、ユーザーは実際には 2D ディスプレイを見つめているため、3D の錯覚が生じ、視覚疲労やめまいなどの症状を経験する可能性があります。

3D ホログラムにより、目の焦点を調整し、前景と背景に交互に焦点を合わせることが可能になり、この症状を効果的に緩和できます。

次に、チームは視線追跡技術を追加して、ユーザーの視線がどこを向いていても部分的な高解像度ホログラムが生成されるようにします。

この方式では、コンピューターはホログラムを部分的に生成するだけでよく、リアルタイムで使用すると効果はより速く、より良くなります。

また、この研究はソニーがスポンサーになったので…

著者について

論文の筆頭著者である Shi Liang 氏は、2014 年に北京航空航天大学を卒業し、スタンフォード大学で修士号を取得しました。現在は MIT の博士課程に在籍しています。彼の研究分野には、VR/AR、機械学習、コンピューターグラフィックスなどがあります。

論文の2番目の著者であるLi Beichen氏は、2018年に清華大学を卒業し、現在はMITの博士課程に在籍しています。彼の研究分野は、コンピューターグラフィックスにおける機械学習の応用です。

論文の宛先:
https://www.nature.com/articles/s41586-020-03152-0.pdf

<<: ケータリングロボットが市場発展の時代を先導

>>: 人工知能はビッグデータ天体物理学の時代へのマスターキーとなるのでしょうか?

携帯電話が1秒で3Dホログラムを生成する、MITチームの新しい研究

ニューラルネットワークを使用して「ケーキを素早く切る」

あらゆるオブジェクトにフォーカスでき、メモリ使用量は1MB未満

著者について

AIとクラウドコンピューティングの深い統合は何をもたらすのでしょうか?

マイクロソフトは、ほぼ100年前の量子理論の新たな証明を示した。

自動運転について話しましょう

すべてのトップオブジェクト検出アルゴリズムを統合: FAIRオープンソースDetectron

ヒントエンジニアリング: LLM で必要なものを生成

人工知能技術には明るい未来がある

AIは製造業にどのように役立つのでしょうか?

識別的か生成的か: どちらが視覚的理解の未来を表すのでしょうか?

推薦する

アルゴリズムエンジニアはなぜ一日中データを扱うのでしょうか。また、どのような種類のデータを扱うのでしょうか。

これから起こることは避けられません。AIサイバー犯罪はすでにあなたの近くにあります

GenAI が近づくにつれて、データガバナンスはどのように進化するべきでしょうか?

ファーウェイクラウド、プロセス全体の簡素化と自動化によりAI開発モデルをアップグレードするModelArts 2.0をリリース

AIを使ってコーデックの退化を打破するクアルコムの最新のトップカンファレンス論文には大きなアイデアが盛り込まれている

Anthropic が「GPT-4 のライバル」言語モデル Claude 2 をリリース: パフォーマンスが向上し、長いテキストもサポート

百度研究所が2020年のAI技術トレンド予測トップ10を発表

9 つの SOTA GNN よりも強力です。 Google Brainが新しいグラフニューラルネットワークGKATを提案

今日の AI 開発者にとって必須のローコードツール 22 選

AIOps の 7 つの主要機能

人工知能とプライバシーの議論: AIの透明性の長所と短所を理解する

なぜ今、AI 画像はすべて女性なのでしょうか?人間とコンピュータの相互作用のメンタルモデルから始めましょう

最強のやつでもGPT-4Vに合格できないの？大学入試をベースとしたテストベンチマーク「MMMU」が誕生