マルチモーダル生成AIの深掘り

マルチモーダル生成AIの深掘り

マルチモーダル生成型人工知能 (GenAI) は、汎用人工知能の実現に向けた次の大きな進歩と言えます。

これは、多感覚の没入型体験を提供するために設計、理論化、実装されたコンセプトです。

複数のデータ タイプの組み合わせから出力を抽出し、洞察やコンテンツなどの応答を提供します。

マルチモーダル生成 AI、その利点、可能性、採用、および関連する問題について学ぶために、読み進めてください。

過去数年間に導入された複数の生成 AI ツールは、過去 10 年間の人工知能 (AI) 技術におけるブレークスルーの証です。 GenAI は比較的短い歴史の中で、あらゆる組織の日常業務やニッチな運用要素にこれを導入する緊急性を生み出してきました。

OpenAI の最初のテキストから画像へのジェネレーターである DALL-E のリアリティは、ほとんどの組織にとってあまり役に立ちませんでしたが、誕生から 1 年も経っていない ChatGPT は、生成 AI が業務にプラスの影響を与える方法を見つけることで、すでに組織に優位性をもたらしています。

McKinsey の「AI の現状」によると、2023 年までに組織の 3 分の 1 が少なくとも 1 つのビジネス機能に GenAI を組み込むことになります。さらに、マッキンゼーの調査回答者の約 75% は、GenAI が業界に破壊的な変化をもたらすと予想しています。

人工知能機能は主に製品開発、機能追加、顧客体験、マーケティング機能などに活用されています。

しかし、GenAI は現在、マルチモーダルと呼ばれる異なる形式を採用しており、複数の感覚入力を受け入れて、類似または異なるデータ タイプで出力を提供します。たとえば、ChatGPT の新しいアップデートにより、マルチモーダル機能が追加され、ストーリー、記事、その他のテキストを生成できるだけでなく、読み取ることも可能になりました。 ChatGPT は音声プロンプトを通じてタスクを実行することもできます。画像を読み取って特定のオブジェクトを識別することもできます。

マルチモーダル GenAI は、汎用人工知能の実現に向けた次の大きな進歩と考えられています。それが何なのか見てみましょう。

マルチモーダル生成 AI とは何ですか?

マルチモーダル GenAI は、多感覚の没入型エクスペリエンスを提供するために設計、理論化、実装されたコンセプトです。複数のデータ タイプの組み合わせから出力を抽出し、洞察やコンテンツなどの応答を提供します。

マルチモーダル生成 AI は、テキスト、画像、ビデオ、オーディオ、深度などの複数のタイプまたはモードのデータを組み合わせて、「現実世界」の設定、シナリオ、または問題についてより正確な判断やより精密な予測を作成するタイプの AI です。これらのモデルは、解釈または応答する必要がある複数のモダリティ/データ タイプのデータセットでトレーニングされます。

マルチモーダル GenAI は GenAI に似ていますが、多次元の埋め込みまたはインデックスを活用し、操作にベクトル データベースを利用できる点が異なります。この違いの核心は、マルチモーダル GenAI が多次元の埋め込みまたはインデックスを通じて複数のタイプのデータを取り込み、処理し、出力できることです。

今年初めにリリースされた Meta の ImageBind マルチモーダル AI は、ChatGPT をベースに、テキスト、画像/ビデオ、オーディオ、深度、赤外線ベースの熱放射、慣性測定装置 (IMU) の 6 つのモダリティを統合しています。同社はまた、マルチモーダル研究の一環として、嗅覚や触覚などの感覚や、脳から得られる機能的磁気共鳴画像信号も統合している。

マルチモーダル生成AIの利点

複数のソースからの情報を組み合わせて処理すると、違いを均質化して、文脈的に関連のある結果を提供できる可能性があります。企業環境では、これにより従業員の生産性が向上します。

マルチモーダル GenAI は、機械とのインタラクションのための新しい経路を作成することで、エンドユーザーとビジネスユーザーの両方のユーザー エクスペリエンスを再構築できます。

また、物理科学、生命科学、生物科学、社会科学の研究への応用の可能性を考えると、一定の社会的、科学的利益も得られます。 GenAI が登場する前の 2021 年 6 月にも、Google は強化学習アルゴリズムに基づく機械学習モデルを活用して、チップ設計の重要なステップである半導体フロアプランニングを実行することができました。

最終的には、複数のモダリティにわたる膨大なデータ ストアに基づいて、マルチセンサー/マルチモーダル空間でより正確な判断と予測を行うことができます。人間よりも速くデータのトレーニングができるだけでなく、データに基づいてより速く意思決定を行うこともできます。

マルチモーダル生成AIの採用

マルチモーダル GenAI Adob​​e の Firefly (テキストから画像へのマルチモーダル) や MidJourney など、GenAI のアプリケーションはすでにいくつか見られています。両方の GenAI のマルチモーダルな性質により、音声入力と視覚入力の両方を受け入れることができることに注意してください。

マルチモーダル性の別のビジネスユースケースには、自動化された電話ベースのサポートシステムが含まれます。このシステムでは、声のトーンに表れる感情を、企業がレポートや分析に使用できるテキストデータに変換できます。

一方で、ユーザーの利益を害するために使用される可能性もあります。一部の「ビジネス」では、電話で詐欺を行うために、よりリアルでダイナミックな音声を生成するために、テキストから音声へのマルチモーダル モデルを使用し始めています。

しかし、これまでの技術的発明と同様に、マルチモーダルで汎用的な GenAI により、数十のキャリアが開発される可能性があります。弁護士、作家、科学者、教師などは、研究、戦略策定、文書の起草と生成などの時間のかかるタスクを、マルチモーダル GenAI ツールのトレーニングに使用される基礎データの範囲内であれば、最適化できます。

つまり、適切なデータが利用可能であれば、知識経済は劇的な変革を遂げることができるのです。

それは大きな「もし」です。

これが、マルチモーダル AI を作成する技術的な難しさと、現在のデータ制限により、主流のアプリケーションが社会構造に浸透するまでにはまだ何年もかかる理由です。

要約すると、マルチモーダル GenAI を有意義な方法で使用することは、モデル自体がより複雑で作成コストが高いために複雑になるだけでなく、データの機密性のために、モデルの作成と使用に関する手順がより複雑になる可能性があります。これらすべてが、この技術の広範な導入を遅らせる可能性がある。

マルチモーダル生成 AI は、製造品質管理、自動車の予測保守、製造サプライ チェーンの最適化を改善するために使用できます。ヘルスケア分野では、患者のバイタルサイン、診断データ、スキャン画像、外観、その他のテキスト/画像/音声/ビデオ記録を処理し、診断および治療計画を改善できます。小売業では、センサー、カメラ、録画などのさまざまなソースからのデータを分析してパターンを識別し、将来の顧客行動を予測できます。さらにまだあります。

大まかに言えば、マルチモーダル GenAI は開発に新たな視覚要素をもたらすことができます。テキスト入力や視覚的な例を取得し、それを実行するために必要なデザインアセットとフロントエンドコードを生成できるモデルを使用して、ソフトウェアのフロントエンドとユーザーエクスペリエンスの特定の側面を生成できるようになるため、特定の種類のビジュアルデザインとインタラクションデザインに革命が起こるはずです。

さらに、AR/VR の創造性を促進することで、患者と直接対面する医療業務やその他のさまざまな業界で仮想サービスが生まれるでしょう。没入型テクノロジーの改良は、エンターテインメント業界で明らかに応用されていますが、医療技術/アクセシビリティデバイス業界、製造業、さらにはデザインや建築などの知識労働業界でも刺激的な新しいものを生み出すことができます。

<<:  少数ショット学習における SetFit によるテキスト分類

>>: 

ブログ    

推薦する

...

...

...

Google、一般的な皮膚疾患を識別するための新しいAIツールを発表

5月19日、海外メディアの報道によると、人工知能はヘルスケア分野で多くの用途があるため、Google...

ロボットが人間のように学習できるようにする Google RT-2 AI モデルとは何ですか?

ビッグモデルが急増し、仮想世界から現実世界に進出しています。 Google DeepMind は最近...

2020年のIoTイベントトップ10を振り返る。アプリケーションの加速

今日では、それはもはや高尚な概念ではありません。スマートカーやスマートホームから、企業の資産管理機器...

自動運転はAIの今後の発展の鍵となるのか?

現地時間10月12日、テスラのCEO、イーロン・マスク氏はツイッターで「約束通り、完全自動運転機能(...

ポーランドのラム酒製造会社ディクタドールが世界初のAIヒューマノイドCEOを任命

AIによって仕事が奪われるのではないかと心配する人が多い中、ある企業が世界初のAIヒューマノイドロボ...

2017年データサイエンスおよび機械学習業界現状調査:Pythonが最も人気のある言語

[[209261]]今年、Kaggle はデータ サイエンスと機械学習の状況を包括的に理解することを...

マイクロソフト、仕事の効率化に役立つ 7 つの新しい AI 製品を発表

Zhidongxi は 11 月 1 日に北京から、この日 (寒くて風が強い)、2017 Micro...

インペリアル・カレッジ:専門医の80%が懸念する心臓リズムデバイスインプラント手術問題をAIで解決する方法

インペリアル・カレッジ・ロンドンの研究者らは、ペースメーカーや除細動器のメーカーとモデルを識別するた...

トランプの「猫と犬バージョン」を生成、偽顔ツールStarGANv2が壊れており、アルゴリズムがオープンソース化されている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ARMベースの3DES暗号化アルゴリズムの実装(1)

暗号化アルゴリズムは主にソフトウェアとハ​​ードウェアを通じて実装されます。ソフトウェア実装には柔軟...

機械学習を予知保全に適用するにはどうすればよいでしょうか?

機械学習と産業用 IoT (IIoT) デバイスから収集されたデータを組み合わせることで、プロセスの...

5G消毒ロボットが武漢を支援し、人間の感染を効果的に防ぐことができる

中国移動の公式ニュースによると、2月3日と2月4日、武漢協和病院と同済天佑病院はそれぞれ、中国移動と...