写真から五感を生成できる AI モデルはどうやってそれを実現するのでしょうか?

写真から五感を生成できる AI モデルはどうやってそれを実現するのでしょうか?

MetaImage は最近、テクノロジー界で大きな話題を呼んでいます。論文「IMAGEBIND: すべてを結合する 1 つの埋め込みスペース」では、Meta の ImageBind が埋め込みスペースを介して 5 つの異なるモダリティを画像に接続してペアリングしており、非常に興味深いです。

1. 五感を網羅するモデルの出現

たとえば、ビーチの写真を見せられたら、波の音、潮風、周囲の熱波を連想するかもしれません。逆に、いびきの音が聞こえたら、人が横になって深い眠りについている姿を想像するかもしれません。

これはまさに常識です。人間は画像から匂いや音、空間の感覚を想像することができ、逆もまた同様です。

では、AI は人間のように、さまざまな無関係なパターンを結び付けることができるのでしょうか? Meta AI が公開した ImageBind 論文はこの問題を解決します。

写真

論文の研究者らは、テキストと画像だけでなく複数のモダリティを「結合」するために、画像を主要データとして使用し、音声、サーマルマップ(サーマルイメージャー)、テキスト、IMU(慣性測定、一連の加速度計、ジャイロスコープなど)と深度をテストしました。

深さとテキストのような無関係な2つのモダリティを結び付けるために、研究者は対照学習を使用しました。この論文では、画像データを主な要件として、特定のデータで利用可能な画像への実際のリンクを表す太い実線を示しています。

写真

次に研究者らは、音声とテキストのデータポイントを取得して正しい画像やビデオを取得できる、創発的リンクがどのように発生するかを示しました。この機能は以前は存在しなかったが、新たに出現した。整列した観測値のペア(たとえば、吠える音と「犬」というテキスト)を使用して、犬の画像を正しく出力します。論文で示されているもう一つの例は、コウノトリの画像と海の波の音を組み合わせたもので、このモダリティを組み合わせて水中のコウノトリの画像を表示します。

写真

この論文の根底にあるのは、実際にはデータ ペアを画像と連結する必要がないということです。たとえば、深度情報やヒートマップ情報をテキスト(画像と実際に関連している)と組み合わせるだけで、ユーザーはこれら 3 つすべてを含む画像を作成できます。この論文ではこの現象を「創発的整合」と呼んでいる。

2. Meta のデータセットを使用しないのはなぜですか?

Meta の Facebook には、画像とテキストのペアのデータセットが最大規模で存在します。興味深いことに、研究者たちは独自のデータセットではなく、OpenAI の CLIP データセットを使用しましたが、過去 10 年間に収集した Meta 独自のデータセットを使用してモデルをトレーニングしても意味があったでしょう。一方、GPT-4 のマルチモーダル アーキテクチャの兆候は見られません。

しかし、ロボット工学研究者のヒューゴ・ポンテ氏はそうは考えておらず、Meta による CLIP の使用は賢明な動きだと考えている。

まず、CLIP は画像と言語の共有埋め込みスペースを作成する非常に強力なモデルです。 CLIP データセットに ImageBind を追加すると、モデルはテキストだけでなく、論文に記載されているほぼすべての他のモダリティにも適用できるようになります。ユーザーがオーディオ、IMU、ヒートマップ、深度、テキストデータを持っている場合、開発者はそのデータに最も近い画像を作成できます。

ポンテ氏はさらに論文と著者らが CLIP を選択した理由を分析しました。「これは賢い選択だったと思います。なぜなら、著者らは CLIP の埋め込みスペースを変更しなかったからです。つまり、過去 3 年間に発表された CLIP を使用するすべての論文に戻って、代わりに ImageBind をプラグインするだけでよいのです。」

ImageBind を使用すると、何でも CLIP に投影できます。 「彼らはCLIPを置き換えたのではなく、CLIPを拡張した。CLIPは画像とそれと一緒に表示されるテキストのペア例を必要とする対照学習にも適用できるため、さらに優れている」とポンテ氏は付け加えた。

さらに、ImageBind の作者は、Vision Transformer (ViT) を採用しました。これは、犬の画像に「犬」を関連付けるなど、さまざまなモダリティにわたる関連概念に対して同様の埋め込みを作成できる、今日の一般的なアーキテクチャです。

3. 次は何ですか?

予想通り、Meta もコードをオープンソース化しましたが、興味深いことに、商用目的に対しても厳しい制限を設け、商用利用を許可しませんでした。しかし、開発者は ImageBind を使用して巧妙な検索エンジンのデモを構築しました。検索エンジンは、テキスト、音声、さらには視覚的な入力を使用して AI によって生成された画像を取得します。

Meta AIの責任者であるヤン・ルカン氏は、このモデルが公表されなかったのは、おそらく法的な理由か、あるいはこのような幅広いパターンを扱った最初の論文だったためだと述べた。これにより、この論文の採用が遅れ、この論文に基づいて開発されたデモはわずかでした。

しかし、この大まかなパターンは、Yann Lecun の AGI アプローチへの一歩のように見えます。これまでのところ、このモデルはさまざまな「感覚」から学習し、人間が世界を認識する方法を模倣した正しい画像を生成することができます。

<<:  今日の AI 開発者にとって必須のローコード ツール 22 選

>>:  ILO: 生成型AIは大量失業を引き起こす可能性は低いが、雇用を創出するだろう

ブログ    
ブログ    

推薦する

機械学習をプログラマーにとってより身近なものにする方法

導入人々は長い間、人工的に生成されたコンテンツを理解するためにアルゴリズムを手動でコーディングしよう...

...

ChatGPT のセキュリティ制限が「謎のコード」によって侵害されました!人類を滅ぼすための手順が口から出され、アルパカとクロードも逃れられない

大型模型の「堀」が再び破られた。謎のコードを入力することで、ビッグモデルは有害なコンテンツを生成する...

...

C# データ構造のソートアルゴリズム

C# データ構造ソート アルゴリズム (バブル ソートを含む) では、Lao Zhao の Code...

...

貪欲アルゴリズム: バイナリツリーを監視したい!

[[361051]]バイナリツリーの問題の監視アドレス: https://leetcode-cn....

ジェネレーションオートメーション:AI主導の労働力

生成 AI は AI の「津波」を引き起こし、AI 駆動型アプリケーションの急速な開発、広範な採用、...

...

人工知能の将来の展望と動向は何でしょうか?

AlphaGo の人間と機械の戦いから、自動運転車のロードトリップ、AI 合成アンカーの採用まで、...

北京大学、バイトダンス等は増分学習を用いたスーパーピクセルセグメンテーションモデルLNSNetを提案した

オンライン学習によって引き起こされる壊滅的な忘却問題を解決するために、北京大学などの研究機関は、勾配...

サプライチェーン管理における AI イノベーションを活用するために従業員を再教育する方法

サプライチェーン管理は最適化ゲームです。 AI の導入により、企業は最適な成果の達成にさらに注力でき...

中国人の「専門用語」データセット、AI:あなたはDBQさえ理解していない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI人材の確保をめぐる秘密の戦い:中国が勝利する可能性は?

[[251811]]画像ソース @Visual China人工知能の概念は、提唱されてから60年以...