AI は、市場にスパムを氾濫させ、情報を捏造することを学習します。 Google の新しい調査で、現実世界の AI アプリケーションの落とし穴が明らかに

[[430918]]

今日、機械学習 (ML) モデルは大規模に使用され、影響力がますます高まっています。しかし、実際の領域で使用すると、予期しない動作を示すことがよくあります。 Google AI は、仕様不足が機械学習にどのような課題をもたらすかを探る記事を公開しました。

機械学習 (ML) モデルはこれまで以上に広く使用されるようになり、影響力が増しています。

[[430919]]

しかし、実際の使用においては多くの問題があり、予期せぬ動作が発生することも多々あります。

たとえば、コンピュータービジョン (CV) モデルの悪いケースを分析すると、モデルは確かにほとんどの特徴をうまく把握しているものの、人間が気付かないような無関係な特徴に対して驚くほど敏感であることが研究者によって発見されることがあります。

たとえば、自然言語処理 (NLP) モデルはテキストから学習するように求められ、学習はしますが、テキストによって直接示されていない人口統計的相関関係に依存することがあります。さらに、このようなエラーを予測するのは簡単ではありません。

[[430920]]

実際、失敗の理由のいくつかはよく知られています。たとえば、不正確なデータで ML モデルをトレーニングしたり、アプリケーションドメインと構造的に一致しない予測問題を解決するためにモデルをトレーニングしたりすることなどです。

ただし、これらの既知の問題に対処した後でも、モデルの動作はデプロイメント間で一貫性がなく、トレーニングの実行ごとに異なる場合もあります。

MLモデルの信頼性に影響を与える原因：不規則性

Google チームは、「Journal of Machine Learning Research」に「不規則性が現代の機械学習の信頼性に課題を与える」と題する論文を発表しました。

出典: http://arxiv.org/pdf/2011.03395.pdf

論文の中で研究者らは、現代の機械学習システムにおいて特に厄介な問題は不規則性であることを示しています。

さらに、さまざまな実用的な機械学習 (ML) システムでは不規則性が頻繁に発生するため、Google はいくつかの緩和戦略を提案しています。

不規則とは何ですか?

非標準化の背後にある考え方は、機械学習モデルが保持されたデータで検証されているとしても、この検証では、モデルが新しい環境で使用されたときに明確に定義された動作をすることを保証するには不十分であることが多いということです。

ML システムが成功している主な理由は、保持されたデータセットでモデルを検証し、高いパフォーマンスを確保しているためです。

モデル検証プロセス

ただし、固定されたデータセットとモデルアーキテクチャの場合、トレーニング済みのモデルを取得して高い検証パフォーマンスを実現するには、通常、さまざまな方法があります。

しかし、標準的な予測タスクでは、異なるソリューションをエンコードするモデルは、持続的な予測パフォーマンスがほぼ同等であるため、同等であると見なされることがよくあります。

ただし、これらのモデルの違いは、標準的な予測パフォーマンスを超えた基準、つまり無関係な入力変動に対してどれだけ公平または堅牢であるかという基準で測定すると明らかになります。

たとえば、標準的な検証では同等のパフォーマンスを発揮するモデルであっても、社会集団や人種によってパフォーマンスに差が見られたり、無関係な情報に大きく依存したりするモデルもあります。

わずかな変動でディープラーニングネットワークが完全に無効になる可能性がある

そして、これらのモデルが実際のシナリオで使用されると、これらの違いは予測される動作の実際の違いに変換されます。

不規則性により、研究者が ML モデルを構築するときに念頭に置いている要件と、ML パイプライン (つまり、モデルの設計と実装) が実際に実行する内容との間にギャップが生じる可能性があります。

重要な結果は、ML パイプラインは原理的には研究ニーズを満たすモデルを返すことができるが、実際にはこのモデルは保持されたデータを正確に予測することしかできず、これらのデータ分布外のデータに対しては無力であるということです。

申請書の不規則性をどのように特定しますか?

この研究では、実際のアプリケーションで機械学習モデルを使用する際の不規則性の具体的な影響について研究します。

Google の戦略は、ほぼ同一の機械学習 (ML) パイプラインを使用して一連のモデルを構築し、それらに非常に小さな変更のみを適用することです。変更が非常に小さいため、同時に標準検証を実行してもパフォーマンスに実際の影響はありません。この戦略の重要なポイントは、モデル初期化トレーニングのランダムシードに注意を払い、データの順序を決定することです。

MLパイプライン図

これらの小さな変更がモデルの重要な特性に大きな影響を与える場合、それは ML パイプラインがモデルが現実世界でどのように動作するかを完全に予測していないことを示しています。そして研究者たちは、実験のあらゆる領域において、これらの小さな変更が実際の使用におけるモデルの動作に大きな変化をもたらすことを発見しました。

コンピュータビジョンの不規則性

例として、コンピュータービジョンにおける不規則性と堅牢性の関係について考えてみましょう。

コンピュータービジョンにおける大きな課題は、人間が困難と感じない分布の変化に対して、ディープラーニングモデルが脆弱になることが多いことです。

ImageNet ベンチマークで良好なパフォーマンスを示す画像分類モデルが、ImageNet-C などのベンチマークではパフォーマンスが低下することはよく知られています。これは、これらのテストが、一般的な画像破損 (ピクセル化やモーションブラーなど) を標準の ImageNet テストセットに適用するためです。したがって、実験では、標準パイプラインはこれらの混乱に対するモデルの感度を指定しません。

ImageNet-C データセットの例

上記の戦略に従って、同じパイプラインと同じデータを使用して 50 個の ResNet-50 画像分類モデルを生成します。これらのモデル間の唯一の違いは、トレーニングで使用されるランダムシードです。

標準の ImageNet 検証セットで評価すると、これらのモデルは実質的に同一のパフォーマンスを実現します。ただし、モデルを ImageNet-C とは異なるテストセット (つまり、破損したデータ) で評価すると、モデルのテストパフォーマンスの変動は、標準の ImageNet で検証された場合よりも数桁大きくなります。

この不規則性は、JFT-300M 3 億画像データセットで事前トレーニングされた BiT-L モデルなど、はるかに大きなデータセットで事前トレーニングされた大規模モデルの場合でも持続します。これらのモデルでは、トレーニングの微調整フェーズ中にランダムシードを変更すると、同様の変更が生成されます。

左: ひどく破損した ImageNet-C データ上でランダムに初期化された同じ ResNet-50 モデル間の精度の変動。線は、破損していないテストデータと破損したデータ (ピクセル化、コントラスト、モーションブラー、明るさの変化を含む) を使用した分類タスクにおけるアンサンブル内の各モデルのパフォーマンスを示しています。指定された値は、全体の平均からの精度の偏差であり、「クリーンな」ImageNet テストセットでの精度の標準偏差として測定されます。黒の実線は、任意に選択されたモデルのパフォーマンスを強調表示し、1 つのテストでのパフォーマンスが他のテストでのパフォーマンスの良い指標ではないことを示しています。

右: ImageNet-C ベンチマークの破損バージョンを含む標準 ImageNet テストセットのサンプル画像。

この問題は、医療用画像処理専用に構築された特殊なコンピュータービジョンモデルにも存在します。その中でも、ディープラーニングモデルは大きな可能性を秘めています。

ここでは、2つの応用分野を例に挙げます。1つは、網膜眼底画像から糖尿病網膜症を検出する眼科分野、もう1つは、皮膚写真から患者の皮膚病状を判断する皮膚科分野です。

研究者らは、これらのパイプラインによって生成されたモデルを、実際に重要な次元でストレステストしました。

眼科に関しては、研究者らは、異なるランダムシードでトレーニングされたモデルが、トレーニング中には見られなかった新しいカメラで撮影された画像に対してどのようなパフォーマンスを発揮するかをテストした。

皮膚科の場合、検査の考え方はほぼ同じですが、対象となる皮膚のタイプの異なる患者が対象となります。

左上: 異なるランダムシードを使用してトレーニングされた糖尿病網膜症分類モデルを、異なるカメラタイプからの画像で評価した場合の AUC の変化。左下: 異なるランダムシードでトレーニングされた肌状態分類モデルを、推定されるさまざまな肌タイプで評価した場合の精度の違い (皮膚科医によってトレーニングされた素人が、ラベル付けエラーの影響を受ける可能性のある回顧写真に基づいて概算)。右: 元のテストセット (左) とストレステストセット (右) のサンプル画像。

結果は、標準的な検証では、これらのタスクにおけるトレーニング済みモデルのパフォーマンスを完全に反映するには実際には不十分であることを示しています。たとえば、眼科テストでは、トレーニングで使用されたランダムシードにより、新しいカメラで撮影された画像に直面したときに、標準の検証セットよりもモデルの変数の変動が大きくなりました。

これらの結果は、標準維持テストだけでは医療アプリケーションにおけるモデルの信頼性を確保するには不十分であり、医療分野のモデルのテストおよび検証プロトコルを拡張する必要があることを改めて示しています。医学文献では、これらの検証は「外部検証」と呼ばれます。

医療分野だけでなく、他の応用分野でも不規則な分類によって生じる問題が存在します。例えば：

NLP タスクでは、分類の不規則性が BERT モデルから派生した文に影響を及ぼす可能性があります。
急性腎障害の予測タスクでは、非標準的な分類により、操作信号と生理学的信号への依存度が高まります。
多遺伝子リスクスコア (PRS) タスクでは、分類の不規則性が PRS モデルのパフォーマンスに影響を与える可能性があります。

結論は

仕様不足の問題に対処するのは困難であり、標準的な予測パフォーマンスを超えたモデルの完全な仕様とテストが必要です。これを実現するには、モデルが使用されるコンテキストを完全に理解し、トレーニングデータを収集する方法を知っており、データが不十分な場合はドメインの専門知識を組み込む必要があります。

上記の点は、今日の機械学習の研究では過小評価されがちです。長い間、これらの分野への投資は不十分でした。

この問題を解決するには、まず機械学習の実用モデル用の新しいストレステストプロトコルを指定し、既存のテスト方法を拡張する必要があります。新しいテスト基準が測定可能なメトリックに体系化された後、データ拡張、事前トレーニング、因果構造などのアルゴリズム戦略がこれらのモデルのパフォーマンスの向上に役立つ可能性があります。

しかし、機械学習システムの要件とそれが使用される世界は常に変化しているため、理想的なストレステストと改善のプロセスには反復が必要になることが多いことにも留意することが重要です。

<<: 大規模言語モデルにおけるプライバシーの考慮

>>: LSTM は惨めに失敗しました!ある少年が時系列モデルを使って恋人の感情を予測した4ページの論文を発表した。