情報理論に基づくキャリブレーション技術により、マルチモーダル機械学習の信頼性が向上

情報理論に基づくキャリブレーション技術により、マルチモーダル機械学習の信頼性が向上

マルチモーダル機械学習は、さまざまなシナリオで目覚ましい進歩を遂げています。しかし、マルチモーダル学習モデルの信頼性については、詳細な研究が不足しています。 「情報によって不確実性が排除される」というマルチモーダル機械学習の本来の意図はこれと一致しており、追加されたモダリティによって予測の精度と信頼性を高めることができます。しかし、ICML2023で最近発表された論文「マルチモーダル学習の調整」では、現在のマルチモーダル学習方法がこの信頼性の仮定に違反していることが判明し、詳細な分析と修正が行われました。

写真


  • アルクシブ: https://arxiv.org/abs/2306.01265
  • コード GitHub: https://github.com/QingyangZhang/CML

現在のマルチモーダル分類方法は信頼性が低いという問題を抱えています。つまり、一部のモードが削除されると、モデルはより高い信頼性を生み出す可能性があり、「情報から不確実性が排除される」という情報理論の基本原則に違反しています。この問題に対処するために、本論文では、キャリブレーションマルチモーダル学習法を提案します。この方法は、さまざまなマルチモーダル学習パラダイムに展開して、マルチモーダル学習モデルの合理性と信頼性を向上させることができます。

写真

この研究は、現在のマルチモーダル学習方法には予測の信頼性が低いという問題があり、既存のマルチモーダル機械学習モデルは信頼性を推定するために部分的なモダリティに依存する傾向があることを指摘しています。特に、この研究では、特定のモードが破損すると、現在のモデル推定値の信頼性が実際に高まることがわかりました。この不合理な問題に対処するために、著者らは直感的なマルチモーダル学習原理を提案しました。つまり、モダリティが削除されると、モデル予測の信頼性は増加しないはずです。しかし、現在のモデルは、すべてのモードを公平に考慮するのではなく、一部のモードを信じる傾向があり、そのモードの影響を受けやすいです。これはモデルの堅牢性にさらに影響を及ぼします。つまり、一部のモードが破損するとモデルが簡単に影響を受けます。

上記の問題に対処するために、現在のいくつかの方法では、温度スケーリングやベイズ学習法などの既存の不確実性校正方法を採用しています。これらの方法は、従来のトレーニング/推論アプローチよりも正確な信頼性の推定を構築できます。しかし、これらの方法は、最終的な融合結果の信頼度推定値を精度と一致させるだけであり、モーダル情報量と信頼度の関係を明示的に考慮していないため、マルチモーダル学習モデルの信頼性を根本的に向上させることはできません。

著者らは、「Calibration Multimodal Learning (CML)」と呼ばれる新しい正規化手法を提案しました。この手法では、予測の信頼性と情報量の間の一貫性を実現するために、モデルが予測の信頼性を情報量と一致させるように強制するペナルティ項を追加します。この手法は、モダリティを削除すると予測の信頼性が低下する(または少なくとも増加しない)という自然な直感に基づいており、信頼性のキャリブレーションを本質的に改善することができます。具体的には、1 つのモダリティが削除されたときに予測の信頼性が増加するサンプルにペナルティを追加することで、モデルに直感的な順序関係を学習させる単純な正規化項が提案されています。

上記の制約は正規化された損失であり、モーダル情報除去の信頼性が高まった場合のペナルティとして機能します。

実験結果は、CML 正則化によって既存のマルチモーダル学習方法の予測信頼性が大幅に向上することを示しています。さらに、CML は分類精度を向上させ、モデルの堅牢性を高めることができます。

マルチモーダル機械学習はさまざまなシナリオで目覚ましい進歩を遂げていますが、マルチモーダル機械学習モデルの信頼性は依然として対処が必要な問題です。この論文では、広範な実証的研究を通じて、現在のマルチモーダル分類法は予測の信頼性が低く、情報理論の原則に違反していることが判明しました。この問題に対処するため、研究者らは CML 正則化手法を提案しました。この手法は既存のモデルに柔軟に導入でき、信頼性の調整、分類精度、モデルの堅牢性の点でパフォーマンスを向上させることができます。この新しい技術は、将来のマルチモーダル学習において重要な役割を果たし、機械学習の信頼性と実用性を向上させると信じています。

<<:  トヨタ・リサーチ・インスティテュート、AIを活用した自動車設計ツールを発表

>>:  ChatGPT「おばあちゃんの抜け穴」がまた人気です!亡くなった祖母のふりをして、寝る前に物語を語り、Win11 のシリアル番号をだます

ブログ    
ブログ    
ブログ    

推薦する

PaddlePaddle をベースに構築された産業グレードの ICNET アプリケーションの予測速度は、TensorFlow を 20% 上回ります。

導入ICNET について話すとき、リアルタイム アプリケーションにおける画像セマンティック セグメン...

AI分野 | ゲームのルールを変える画期的なアイデア10選

[[357174]] AI の旅が始まって以来、私は無限の可能性を秘め、輝かしい歴史に足跡を残してき...

AIを活用したBeike Real Estate:不動産サービス業界の新たなエコシステムの構築

[51CTO.com からのオリジナル記事] 人工知能は日常生活のあらゆる分野に大きな変化をもたらし...

イスラエルの科学者がロボットにイナゴの耳を装備させ、バイオセンサーで画期的な進歩を遂げる

[[387788]]簡単に言えば、ロボットに「聞く」機能を持たせるには、音声信号を電気信号に変換し、...

基準に問題があり、人工知能は間違った方向に向かっている

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

ロボットは人工知能技術に基づいて人間の表情を作る

信頼関係を築く上で、私たちの表情が果たす役割は非常に大きいにもかかわらず、ほとんどのロボットの顔はプ...

ハリバートンのチーフデータサイエンティスト兼テクニカルフェローがエネルギー業界における AI アプリケーションの現状について語る

エネルギー産業はハイテク主導の産業です。石油・ガス業界では、過酷な条件下で大型機器を使用してさまざま...

未来を変える5つのAIトレンド

人工知能は、今の世代で最も話題になっているトピックです。人工知能は、20年後の世界がどのように発展す...

Python における 7 つの主要なキーワード抽出アルゴリズムのベンチマーク

私はキーワード抽出タスクのための効率的なアルゴリズムを探していました。 目標は、データ コーパスが急...

...

...

ビッグデータアルゴリズムとアプリケーションシナリオパート1: 統計と分布

アルゴリズムはビッグデータの最も価値のある部分です。ビッグデータマイニングとは、大量、不完全、ノイズ...

JVM チューニングの概要: 新世代のガベージ コレクション アルゴリズム

ガベージコレクションのボトルネック従来の世代別ガベージ コレクション方式では、ある程度、アプリケーシ...

ビジネスに AI を導入する 3 つのユースケース: CxO 向けチートシート

[[354085]]人工知能 (AI) はもはや初期段階ではなく、影響力のある結果をもたらす重要なビ...