写真から五感を生成できる AI モデルはどうやってそれを実現するのでしょうか?

MetaImage は最近、テクノロジー界で大きな話題を呼んでいます。論文「IMAGEBIND: すべてを結合する 1 つの埋め込みスペース」では、Meta の ImageBind が埋め込みスペースを介して 5 つの異なるモダリティを画像に接続してペアリングしており、非常に興味深いです。

1. 五感を網羅するモデルの出現

たとえば、ビーチの写真を見せられたら、波の音、潮風、周囲の熱波を連想するかもしれません。逆に、いびきの音が聞こえたら、人が横になって深い眠りについている姿を想像するかもしれません。

これはまさに常識です。人間は画像から匂いや音、空間の感覚を想像することができ、逆もまた同様です。

では、AI は人間のように、さまざまな無関係なパターンを結び付けることができるのでしょうか? Meta AI が公開した ImageBind 論文はこの問題を解決します。

写真

論文の研究者らは、テキストと画像だけでなく複数のモダリティを「結合」するために、画像を主要データとして使用し、音声、サーマルマップ（サーマルイメージャー）、テキスト、IMU（慣性測定、一連の加速度計、ジャイロスコープなど）と深度をテストしました。

深さとテキストのような無関係な2つのモダリティを結び付けるために、研究者は対照学習を使用しました。この論文では、画像データを主な要件として、特定のデータで利用可能な画像への実際のリンクを表す太い実線を示しています。

写真

次に研究者らは、音声とテキストのデータポイントを取得して正しい画像やビデオを取得できる、創発的リンクがどのように発生するかを示しました。この機能は以前は存在しなかったが、新たに出現した。整列した観測値のペア（たとえば、吠える音と「犬」というテキスト）を使用して、犬の画像を正しく出力します。論文で示されているもう一つの例は、コウノトリの画像と海の波の音を組み合わせたもので、このモダリティを組み合わせて水中のコウノトリの画像を表示します。

写真

この論文の根底にあるのは、実際にはデータペアを画像と連結する必要がないということです。たとえば、深度情報やヒートマップ情報をテキスト（画像と実際に関連している）と組み合わせるだけで、ユーザーはこれら 3 つすべてを含む画像を作成できます。この論文ではこの現象を「創発的整合」と呼んでいる。

2. Meta のデータセットを使用しないのはなぜですか?

Meta の Facebook には、画像とテキストのペアのデータセットが最大規模で存在します。興味深いことに、研究者たちは独自のデータセットではなく、OpenAI の CLIP データセットを使用しましたが、過去 10 年間に収集した Meta 独自のデータセットを使用してモデルをトレーニングしても意味があったでしょう。一方、GPT-4 のマルチモーダルアーキテクチャの兆候は見られません。

しかし、ロボット工学研究者のヒューゴ・ポンテ氏はそうは考えておらず、Meta による CLIP の使用は賢明な動きだと考えている。

まず、CLIP は画像と言語の共有埋め込みスペースを作成する非常に強力なモデルです。 CLIP データセットに ImageBind を追加すると、モデルはテキストだけでなく、論文に記載されているほぼすべての他のモダリティにも適用できるようになります。ユーザーがオーディオ、IMU、ヒートマップ、深度、テキストデータを持っている場合、開発者はそのデータに最も近い画像を作成できます。

ポンテ氏はさらに論文と著者らが CLIP を選択した理由を分析しました。「これは賢い選択だったと思います。なぜなら、著者らは CLIP の埋め込みスペースを変更しなかったからです。つまり、過去 3 年間に発表された CLIP を使用するすべての論文に戻って、代わりに ImageBind をプラグインするだけでよいのです。」

ImageBind を使用すると、何でも CLIP に投影できます。「彼らはCLIPを置き換えたのではなく、CLIPを拡張した。CLIPは画像とそれと一緒に表示されるテキストのペア例を必要とする対照学習にも適用できるため、さらに優れている」とポンテ氏は付け加えた。

さらに、ImageBind の作者は、Vision Transformer (ViT) を採用しました。これは、犬の画像に「犬」を関連付けるなど、さまざまなモダリティにわたる関連概念に対して同様の埋め込みを作成できる、今日の一般的なアーキテクチャです。

3. 次は何ですか?

予想通り、Meta もコードをオープンソース化しましたが、興味深いことに、商用目的に対しても厳しい制限を設け、商用利用を許可しませんでした。しかし、開発者は ImageBind を使用して巧妙な検索エンジンのデモを構築しました。検索エンジンは、テキスト、音声、さらには視覚的な入力を使用して AI によって生成された画像を取得します。

Meta AIの責任者であるヤン・ルカン氏は、このモデルが公表されなかったのは、おそらく法的な理由か、あるいはこのような幅広いパターンを扱った最初の論文だったためだと述べた。これにより、この論文の採用が遅れ、この論文に基づいて開発されたデモはわずかでした。

しかし、この大まかなパターンは、Yann Lecun の AGI アプローチへの一歩のように見えます。これまでのところ、このモデルはさまざまな「感覚」から学習し、人間が世界を認識する方法を模倣した正しい画像を生成することができます。

<<: 今日の AI 開発者にとって必須のローコードツール 22 選

>>: ILO: 生成型AIは大量失業を引き起こす可能性は低いが、雇用を創出するだろう

準備はできたか？ GNN グラフニューラルネットワーク 2021 年の主要なアプリケーションホットスポット 5 つ

写真から五感を生成できる AI モデルはどうやってそれを実現するのでしょうか?

1. 五感を網羅するモデルの出現

2. Meta のデータセットを使用しないのはなぜですか?

3. 次は何ですか?

準備はできたか？ GNN グラフニューラルネットワーク 2021 年の主要なアプリケーションホットスポット 5 つ

TransformerはCNNを超え、計算複雑性の問題を解決します

世界的なAI人材不足により、各国間の協力とトレーニングが増加

より安全な街路のためのリアルタイムのインテリジェントビデオ分析

「スマートストア」のAIカメラは何ができるのか？

人工知能は創造的な仕事を促進できるでしょうか?

韓国のガールズグループBLACKPINKが2次元に入ったとき、清華フォーク研究所のAIアーティファクトはこのようにプレイできることが判明

JD X ロボティクスチャレンジが終了、BUPT チームのインテリジェントロボットが優勝

推薦する

AI時代に人間が持つべき9つのソフトスキル。あなたはいくつ持っていますか？

CLImF アルゴリズムを使用して推奨システムを設計する方法

量子コンピューティング + 人工知能 - これが未来のテクノロジーの最大のホットスポットです!

未来は人工知能の時代であり、さらに Python の時代です。

Tensorflow はディープラーニングに基づいて画像補完をどのように実装するのでしょうか?

AI にはどのような IT インフラストラクチャが必要ですか?

PyTorch を使用した Mixture of Experts (MoE) モデルの実装

『Thinking Chain: Six Intuitions about Big Models』の著者、ジェイソン・ウェイ氏

OpenAI研究者：データが不十分な場合に教師あり学習を実現する方法

ドローンのインターネット: IoT がさまざまな業界のユースケースをサポートする方法

人工知能（AI）が商業ビルのアプリケーションで成功を収める

概要: インターネット時代です!人工知能に関する4つの大きな誤解