マルチモーダル生成AIの深掘り

マルチモーダル生成AIの深掘り

マルチモーダル生成型人工知能 (GenAI) は、汎用人工知能の実現に向けた次の大きな進歩と言えます。

これは、多感覚の没入型体験を提供するために設計、理論化、実装されたコンセプトです。

複数のデータ タイプの組み合わせから出力を抽出し、洞察やコンテンツなどの応答を提供します。

マルチモーダル生成 AI、その利点、可能性、採用、および関連する問題について学ぶために、読み進めてください。

過去数年間に導入された複数の生成 AI ツールは、過去 10 年間の人工知能 (AI) 技術におけるブレークスルーの証です。 GenAI は比較的短い歴史の中で、あらゆる組織の日常業務やニッチな運用要素にこれを導入する緊急性を生み出してきました。

OpenAI の最初のテキストから画像へのジェネレーターである DALL-E のリアリティは、ほとんどの組織にとってあまり役に立ちませんでしたが、誕生から 1 年も経っていない ChatGPT は、生成 AI が業務にプラスの影響を与える方法を見つけることで、すでに組織に優位性をもたらしています。

McKinsey の「AI の現状」によると、2023 年までに組織の 3 分の 1 が少なくとも 1 つのビジネス機能に GenAI を組み込むことになります。さらに、マッキンゼーの調査回答者の約 75% は、GenAI が業界に破壊的な変化をもたらすと予想しています。

人工知能機能は主に製品開発、機能追加、顧客体験、マーケティング機能などに活用されています。

しかし、GenAI は現在、マルチモーダルと呼ばれる異なる形式を採用しており、複数の感覚入力を受け入れて、類似または異なるデータ タイプで出力を提供します。たとえば、ChatGPT の新しいアップデートにより、マルチモーダル機能が追加され、ストーリー、記事、その他のテキストを生成できるだけでなく、読み取ることも可能になりました。 ChatGPT は音声プロンプトを通じてタスクを実行することもできます。画像を読み取って特定のオブジェクトを識別することもできます。

マルチモーダル GenAI は、汎用人工知能の実現に向けた次の大きな進歩と考えられています。それが何なのか見てみましょう。

マルチモーダル生成 AI とは何ですか?

マルチモーダル GenAI は、多感覚の没入型エクスペリエンスを提供するために設計、理論化、実装されたコンセプトです。複数のデータ タイプの組み合わせから出力を抽出し、洞察やコンテンツなどの応答を提供します。

マルチモーダル生成 AI は、テキスト、画像、ビデオ、オーディオ、深度などの複数のタイプまたはモードのデータを組み合わせて、「現実世界」の設定、シナリオ、または問題についてより正確な判断やより精密な予測を作成するタイプの AI です。これらのモデルは、解釈または応答する必要がある複数のモダリティ/データ タイプのデータセットでトレーニングされます。

マルチモーダル GenAI は GenAI に似ていますが、多次元の埋め込みまたはインデックスを活用し、操作にベクトル データベースを利用できる点が異なります。この違いの核心は、マルチモーダル GenAI が多次元の埋め込みまたはインデックスを通じて複数のタイプのデータを取り込み、処理し、出力できることです。

今年初めにリリースされた Meta の ImageBind マルチモーダル AI は、ChatGPT をベースに、テキスト、画像/ビデオ、オーディオ、深度、赤外線ベースの熱放射、慣性測定装置 (IMU) の 6 つのモダリティを統合しています。同社はまた、マルチモーダル研究の一環として、嗅覚や触覚などの感覚や、脳から得られる機能的磁気共鳴画像信号も統合している。

マルチモーダル生成AIの利点

複数のソースからの情報を組み合わせて処理すると、違いを均質化して、文脈的に関連のある結果を提供できる可能性があります。企業環境では、これにより従業員の生産性が向上します。

マルチモーダル GenAI は、機械とのインタラクションのための新しい経路を作成することで、エンドユーザーとビジネスユーザーの両方のユーザー エクスペリエンスを再構築できます。

また、物理科学、生命科学、生物科学、社会科学の研究への応用の可能性を考えると、一定の社会的、科学的利益も得られます。 GenAI が登場する前の 2021 年 6 月にも、Google は強化学習アルゴリズムに基づく機械学習モデルを活用して、チップ設計の重要なステップである半導体フロアプランニングを実行することができました。

最終的には、複数のモダリティにわたる膨大なデータ ストアに基づいて、マルチセンサー/マルチモーダル空間でより正確な判断と予測を行うことができます。人間よりも速くデータのトレーニングができるだけでなく、データに基づいてより速く意思決定を行うこともできます。

マルチモーダル生成AIの採用

マルチモーダル GenAI Adob​​e の Firefly (テキストから画像へのマルチモーダル) や MidJourney など、GenAI のアプリケーションはすでにいくつか見られています。両方の GenAI のマルチモーダルな性質により、音声入力と視覚入力の両方を受け入れることができることに注意してください。

マルチモーダル性の別のビジネスユースケースには、自動化された電話ベースのサポートシステムが含まれます。このシステムでは、声のトーンに表れる感情を、企業がレポートや分析に使用できるテキストデータに変換できます。

一方で、ユーザーの利益を害するために使用される可能性もあります。一部の「ビジネス」では、電話で詐欺を行うために、よりリアルでダイナミックな音声を生成するために、テキストから音声へのマルチモーダル モデルを使用し始めています。

しかし、これまでの技術的発明と同様に、マルチモーダルで汎用的な GenAI により、数十のキャリアが開発される可能性があります。弁護士、作家、科学者、教師などは、研究、戦略策定、文書の起草と生成などの時間のかかるタスクを、マルチモーダル GenAI ツールのトレーニングに使用される基礎データの範囲内であれば、最適化できます。

つまり、適切なデータが利用可能であれば、知識経済は劇的な変革を遂げることができるのです。

それは大きな「もし」です。

これが、マルチモーダル AI を作成する技術的な難しさと、現在のデータ制限により、主流のアプリケーションが社会構造に浸透するまでにはまだ何年もかかる理由です。

要約すると、マルチモーダル GenAI を有意義な方法で使用することは、モデル自体がより複雑で作成コストが高いために複雑になるだけでなく、データの機密性のために、モデルの作成と使用に関する手順がより複雑になる可能性があります。これらすべてが、この技術の広範な導入を遅らせる可能性がある。

マルチモーダル生成 AI は、製造品質管理、自動車の予測保守、製造サプライ チェーンの最適化を改善するために使用できます。ヘルスケア分野では、患者のバイタルサイン、診断データ、スキャン画像、外観、その他のテキスト/画像/音声/ビデオ記録を処理し、診断および治療計画を改善できます。小売業では、センサー、カメラ、録画などのさまざまなソースからのデータを分析してパターンを識別し、将来の顧客行動を予測できます。さらにまだあります。

大まかに言えば、マルチモーダル GenAI は開発に新たな視覚要素をもたらすことができます。テキスト入力や視覚的な例を取得し、それを実行するために必要なデザインアセットとフロントエンドコードを生成できるモデルを使用して、ソフトウェアのフロントエンドとユーザーエクスペリエンスの特定の側面を生成できるようになるため、特定の種類のビジュアルデザインとインタラクションデザインに革命が起こるはずです。

さらに、AR/VR の創造性を促進することで、患者と直接対面する医療業務やその他のさまざまな業界で仮想サービスが生まれるでしょう。没入型テクノロジーの改良は、エンターテインメント業界で明らかに応用されていますが、医療技術/アクセシビリティデバイス業界、製造業、さらにはデザインや建築などの知識労働業界でも刺激的な新しいものを生み出すことができます。

<<:  少数ショット学習における SetFit によるテキスト分類

>>: 

ブログ    
ブログ    

推薦する

一つ選びますか? Python 機械学習の実践的なヒント

原題は「Some Essential Hacks and Tricks for Machine Le...

Python の高度なアルゴリズムとデータ構造: treap を使用してデュアル インデックスを実装する (パート 1)

\上記で紹介したヒープ構造では、データを部分的にしかソートできません。つまり、一部の要素のソートし...

OpenAIの従業員が996の勤務スケジュールを公開、ネットユーザー「本当の競争は強制する必要はない」

OpenAI も 996 で動作することが確認されています (doge)。 『Thinking C...

マイクロソフトはIBMとアマゾンに続き、警察への顔認識技術の販売を拒否

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Go 言語アルゴリズムの美しさ - 基本的なソート

[[404642]]この記事はWeChatの公開アカウント「roseduanの執筆場所」から転載した...

ディープフィードフォワードシーケンスメモリニューラルネットワークに基づく大語彙連続音声認識

【51CTO.comオリジナル記事】まとめ本研究では、ディープフィードフォワードシーケンスメモリニュ...

LeCun は AGI を予測します: 大規模モデルと強化学習はどちらもランプです!私の「世界モデル」は新しい道です

現代の AI 界で最も有名な巨匠の一人であり、Meta の AI 研究所の魂である Yann LeC...

爆発力で動く昆虫ロボットは、自重の22倍を運ぶことができ、垂直に59cmジャンプできる。

この小さなロボットはエネルギーに溢れています。体は昆虫ほどの大きさですが、自分の体重の22倍の重さの...

...

ドローンの将来の用途

ドローンは、1960年代以降、政府と軍隊によるインテリジェントな戦闘装備の需要から生まれました。米軍...

...

速達荷物を受け取るには顔認証しか方法がないのでしょうか?上海郵政:申通、菜鳥郵政などと面談し、集荷の同意を得る必要がある

[[404490]]宅配業者があなたに電話もせずに荷物を集荷場所に「投げる」という経験をしたことはあ...

RPAと医療におけるインテリジェントオートメーションの台頭

デジタル変革はヘルスケアにおける大きなトレンドと考えられており、インテリジェントな自動化もその一部と...

あらゆる人間の声を再現できるAI技術

ポッドキャスト業界は、よりリラックスした、自然でカジュアルなオーディオストーリーテリングへと移行して...