写真から五感を生成できる AI モデルはどうやってそれを実現するのでしょうか?

写真から五感を生成できる AI モデルはどうやってそれを実現するのでしょうか?

MetaImage は最近、テクノロジー界で大きな話題を呼んでいます。論文「IMAGEBIND: すべてを結合する 1 つの埋め込みスペース」では、Meta の ImageBind が埋め込みスペースを介して 5 つの異なるモダリティを画像に接続してペアリングしており、非常に興味深いです。

1. 五感を網羅するモデルの出現

たとえば、ビーチの写真を見せられたら、波の音、潮風、周囲の熱波を連想するかもしれません。逆に、いびきの音が聞こえたら、人が横になって深い眠りについている姿を想像するかもしれません。

これはまさに常識です。人間は画像から匂いや音、空間の感覚を想像することができ、逆もまた同様です。

では、AI は人間のように、さまざまな無関係なパターンを結び付けることができるのでしょうか? Meta AI が公開した ImageBind 論文はこの問題を解決します。

写真

論文の研究者らは、テキストと画像だけでなく複数のモダリティを「結合」するために、画像を主要データとして使用し、音声、サーマルマップ(サーマルイメージャー)、テキスト、IMU(慣性測定、一連の加速度計、ジャイロスコープなど)と深度をテストしました。

深さとテキストのような無関係な2つのモダリティを結び付けるために、研究者は対照学習を使用しました。この論文では、画像データを主な要件として、特定のデータで利用可能な画像への実際のリンクを表す太い実線を示しています。

写真

次に研究者らは、音声とテキストのデータポイントを取得して正しい画像やビデオを取得できる、創発的リンクがどのように発生するかを示しました。この機能は以前は存在しなかったが、新たに出現した。整列した観測値のペア(たとえば、吠える音と「犬」というテキスト)を使用して、犬の画像を正しく出力します。論文で示されているもう一つの例は、コウノトリの画像と海の波の音を組み合わせたもので、このモダリティを組み合わせて水中のコウノトリの画像を表示します。

写真

この論文の根底にあるのは、実際にはデータ ペアを画像と連結する必要がないということです。たとえば、深度情報やヒートマップ情報をテキスト(画像と実際に関連している)と組み合わせるだけで、ユーザーはこれら 3 つすべてを含む画像を作成できます。この論文ではこの現象を「創発的整合」と呼んでいる。

2. Meta のデータセットを使用しないのはなぜですか?

Meta の Facebook には、画像とテキストのペアのデータセットが最大規模で存在します。興味深いことに、研究者たちは独自のデータセットではなく、OpenAI の CLIP データセットを使用しましたが、過去 10 年間に収集した Meta 独自のデータセットを使用してモデルをトレーニングしても意味があったでしょう。一方、GPT-4 のマルチモーダル アーキテクチャの兆候は見られません。

しかし、ロボット工学研究者のヒューゴ・ポンテ氏はそうは考えておらず、Meta による CLIP の使用は賢明な動きだと考えている。

まず、CLIP は画像と言語の共有埋め込みスペースを作成する非常に強力なモデルです。 CLIP データセットに ImageBind を追加すると、モデルはテキストだけでなく、論文に記載されているほぼすべての他のモダリティにも適用できるようになります。ユーザーがオーディオ、IMU、ヒートマップ、深度、テキストデータを持っている場合、開発者はそのデータに最も近い画像を作成できます。

ポンテ氏はさらに論文と著者らが CLIP を選択した理由を分析しました。「これは賢い選択だったと思います。なぜなら、著者らは CLIP の埋め込みスペースを変更しなかったからです。つまり、過去 3 年間に発表された CLIP を使用するすべての論文に戻って、代わりに ImageBind をプラグインするだけでよいのです。」

ImageBind を使用すると、何でも CLIP に投影できます。 「彼らはCLIPを置き換えたのではなく、CLIPを拡張した。CLIPは画像とそれと一緒に表示されるテキストのペア例を必要とする対照学習にも適用できるため、さらに優れている」とポンテ氏は付け加えた。

さらに、ImageBind の作者は、Vision Transformer (ViT) を採用しました。これは、犬の画像に「犬」を関連付けるなど、さまざまなモダリティにわたる関連概念に対して同様の埋め込みを作成できる、今日の一般的なアーキテクチャです。

3. 次は何ですか?

予想通り、Meta もコードをオープンソース化しましたが、興味深いことに、商用目的に対しても厳しい制限を設け、商用利用を許可しませんでした。しかし、開発者は ImageBind を使用して巧妙な検索エンジンのデモを構築しました。検索エンジンは、テキスト、音声、さらには視覚的な入力を使用して AI によって生成された画像を取得します。

Meta AIの責任者であるヤン・ルカン氏は、このモデルが公表されなかったのは、おそらく法的な理由か、あるいはこのような幅広いパターンを扱った最初の論文だったためだと述べた。これにより、この論文の採用が遅れ、この論文に基づいて開発されたデモはわずかでした。

しかし、この大まかなパターンは、Yann Lecun の AGI アプローチへの一歩のように見えます。これまでのところ、このモデルはさまざまな「感覚」から学習し、人間が世界を認識する方法を模倣した正しい画像を生成することができます。

<<:  今日の AI 開発者にとって必須のローコード ツール 22 選

>>:  ILO: 生成型AIは大量失業を引き起こす可能性は低いが、雇用を創出するだろう

ブログ    
ブログ    

推薦する

...

...

AI時代に人間が持つべき9つのソフトスキル。あなたはいくつ持っていますか?

今日の人工知能、ビッグデータ、自動化の時代では、技術的なスキルとデータリテラシーが非常に重要です。し...

CLImF アルゴリズムを使用して推奨システムを設計する方法

[51CTO.com からのオリジナル記事] 2010 年以降、レコメンデーション システムの分野で...

量子コンピューティング + 人工知能 - これが未来のテクノロジーの最大のホットスポットです!

[[219586]] 1990年代初頭、ウィチタ州立大学の物理学教授エリザベス・バーマンが量子物理...

...

未来は人工知能の時代であり、さらに Python の時代です。

Python はますます人気が高まっています。近年の Python の人気は、人工知能や機械学習と...

Tensorflow はディープラーニングに基づいて画像補完をどのように実装するのでしょうか?

[[191038]]ブランドン・エイモス編集:モリー・ハン・シャオヤン目次1. はじめに2. ステ...

AI にはどのような IT インフラストラクチャが必要ですか?

長年にわたり、AI テクノロジーの発展と変化に伴い、さまざまな業界や IT 意思決定者がこの分野に多...

PyTorch を使用した Mixture of Experts (MoE) モデルの実装

Mixtral 8x7B の発売は、オープン AI の分野、特に Mixture-of-Expert...

『Thinking Chain: Six Intuitions about Big Models』の著者、ジェイソン・ウェイ氏

ジェイソン・ウェイを覚えていますか?思考連鎖の創始者は、命令チューニングに関する初期の研究を共同で主...

OpenAI研究者:データが不十分な場合に教師あり学習を実現する方法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ドローンのインターネット: IoT がさまざまな業界のユースケースをサポートする方法

ドローンは長い間、高価な軍事用途に関連付けられてきましたが、現在では商業分野でも使用されることが増え...

人工知能(AI)が商業ビルのアプリケーションで成功を収める

[[359215]]今日、ビッグデータやモノのインターネットなどのテクノロジーが広く応用されるように...

概要: インターネット時代です!人工知能に関する4つの大きな誤解

インターネットは現在、非常に急速に発展しており、特に過去2年間で、人工知能はインターネットのトレンド...