OpenOOD アップデート v1.5: 包括的かつ正確な分布検出コード ベースとテスト プラットフォーム、オンライン ランキングとワンクリック テストをサポート

OpenOOD アップデート v1.5: 包括的かつ正確な分布検出コード ベースとテスト プラットフォーム、オンライン ランキングとワンクリック テストをサポート

分布外 (OOD) 検出は、オープン ワールド インテリジェント システムの信頼性の高い動作に不可欠ですが、現在のオブジェクト指向の検出方法では「評価の不一致」という問題があります。

以前の作業である OpenOOD v1 では、OOD 検出の評価が統一されましたが、スケーラビリティと使いやすさの点で依然として制限がありました。

最近、開発チームは再び OpenOOD v1.5 を提案しました。以前のバージョンと比較して、新しい OOD 検出方法の評価は、精度、標準化、使いやすさの確保において大幅に改善されました。

写真

論文: https://arxiv.org/abs/2306.09301

OpenOOD コードベース: https://github.com/Jingkang50/OpenOOD

OpenOOD リーダーボード: https://zjysteven.github.io/OpenOOD/

特に、OpenOOD v1.5 では、評価機能が ImageNet などの大規模データセットに拡張され、重要だが未開発のフルスペクトル OOD 検出が研究され、オンライン リーダーボードや使いやすい評価ツールなどの新機能が導入されています。

この研究は、包括的な実験結果からの詳細な分析と洞察にも貢献し、OOD 検出方法の知識ベースを充実させます。

これらの機能強化により、OpenOOD v1.5 は OOD 研究の進歩を促進し、OOD 検出研究のためのより強力で包括的な評価ベンチマークを提供することを目指しています。

背景

訓練された画像分類器がオープンワールドで確実に動作するための重要な機能は、未知の分布外 (OOD) サンプルを検出することです。

たとえば、猫と犬の分類器をトレーニングするために、猫と犬の写真のセットを使用しました。分布内 (ID) サンプル、つまりここでは猫と犬の写真については、当然、分類器がそれらを対応するカテゴリに正確に識別することが期待されます。

分布外の OOD サンプル、つまり猫や犬以外の写真 (飛行機、果物など) については、モデルがそれらが未知の新しいオブジェクト/概念であることを検出し、したがって分布内の猫や犬のどのカテゴリにも分類できないことを期待します。

この問題は分布外検出(OOD検出)と呼ばれ、近年大きな注目を集めており、新たな研究が次々と登場しています。しかし、この分野が急速に拡大するにつれ、さまざまな理由からその開発状況の追跡と測定が困難になってきました。

理由 1: テスト OOD データセットに一貫性がない。

さまざまなディープラーニング タスクの急速な発展は、統合されたテスト データ セットと切り離すことはできません (画像分類の CIFAR と ImageNet、オブジェクト検出の PASCAL VOC と COCO など)。

残念ながら、OOD 検出の分野では、統一され広く使用されている OOD データセットがこれまで存在していませんでした。その結果、上図のような結果になりました。既存研究の実験設定を振り返ってみると、使用されているOODデータが非常にばらばらであることがわかります(例えば、CIFAR-10がIDデータの場合、MNISTとSVHNをOODとして使用している研究もあれば、CIFAR-100とTiny ImageNetをOODとして使用している研究もあります)。このような場合、すべての方法を直接かつ公平に比較​​することは非常に困難です。

理由 2: 用語がわかりにくい。

OOD 検出に加えて、「オープンセット認識」(OSR) や「新規性検出」などの用語も文献によく登場します。

これらは本質的に同じ問題に焦点を当てており、実験設定の詳細にわずかな違いがあるだけです。ただし、用語が異なると、メソッド間の不要な分岐が発生する可能性があります。たとえば、OOD 検出と OSR はかつて 2 つの独立したタスクと見なされており、異なるブランチのメソッド (同じ問題を解決しているにもかかわらず) が比較されることはほとんどありませんでした。

理由3: 操作ミス。

多くの研究では、研究者は OOD テスト セット内のサンプルを直接使用して、パラメータを調整したり、モデルをトレーニングしたりすることがよくあります。このような操作により、メソッドの OOD 検出能力が過大評価されることになります。

上記の問題は、この分野の秩序ある発展に明らかに寄与しません。既存および将来のOOD検出方法をテストおよび評価するための統一されたベンチマークとプラットフォームが緊急に必要です。

OpenOOD は、このような課題に応えるために誕生しました。最初のバージョンは重要な前進でしたが、サイズが小さいことと使いやすさに問題があり、改善する必要がありました。

そのため、OpenOOD v1.5 の新バージョンでは、さらに強化およびアップグレードし、研究者が使用できる包括的で正確かつ使いやすいテスト プラットフォームの作成を目指しています。

要約すると、OpenOOD には次の重要な機能と貢献があります。

1. 大規模なモジュール式コードベース。

コード ライブラリは、モデル構造、データの前処理、後処理、トレーニング、テストなどを分離してモジュール化し、再利用と開発を容易にします。現在、OpenOOD は画像分類タスク向けに約 40 種類の最先端の OOD 検出方法を実装しています。

写真

2. ワンクリックでテストできる評価ツール。

上の図に示すように、OpenOOD の評価者は、わずか数行のコードで、指定された ID データセットに対して、提供された分類器とポストプロセッサの OOD 検出テスト結果を提供できます。

対応する OOD データは評価者によって内部的に決定され提供されるため、テストの一貫性と公平性が保証されます。この推定器は、標準 OOD 検出とフルスペクトル OOD 検出の両方をサポートしています (これについては後で詳しく説明します)。

3. オンラインリーダーボード。

OpenOOD を使用して、CIFAR-10、CIFAR-100、ImageNet-200、ImageNet-1K の 4 つの ID データセットで約 40 の OOD 検出方法のパフォーマンスを比較し、その結果を公開ランキングにしました。この分野で最も効果的かつ有望な方法を皆様に知っていただくお手伝いをしたいと思っています。

4. 実験結果からの新たな発見。

OpenOOD に関する包括的な実験結果に基づいて、私たちの論文では多くの新しい発見を示しています。たとえば、OOD 検出とはほとんど関係がないように見えますが、データ拡張は実際には OOD 検出のパフォーマンスを効果的に向上させることができ、この向上は特定の OOD 検出方法によってもたらされる向上とは直交し、補完的です。

さらに、フルスペクトルOOD検出における既存の方法のパフォーマンスは満足できるものではないことがわかりました。これも、将来この分野で解決すべき重要な問題となるでしょう。

問題の説明

このセクションでは、標準およびフルスペクトル OOD テストの目的について簡単に概説します。より詳細で正式な説明については、当社の論文をお読みください。

写真

まず背景を説明します。私たちが検討する画像分類シナリオでは、分布内 (ID) データは対応する分類タスクによって定義されます。たとえば、CIFAR-10 分類の場合、ID 分布は 10 個の意味カテゴリに対応します。

OOD の概念は ID を基準にして形成されます。ID セマンティック カテゴリ外のセマンティック カテゴリに対応し、ID カテゴリと異なる画像は、分布外 OOD 画像です。同時に、次の2種類の分配の変化についても議論する必要があります。

セマンティックシフト: 上図の横軸に対応する、深いセマンティックレベルでの分布の変化。たとえば、トレーニング中の意味カテゴリは猫と犬であり、テスト中の意味カテゴリは飛行機と果物です。

共変量シフト: 分布は表面統計レベルで変化します (意味は変化しません)。これは、上の図の縦軸に対応します。たとえば、トレーニング画像は猫や犬のきれいで自然な写真ですが、テスト画像はノイズの多い、または手描きの猫や犬の写真です。

上記の背景と上記の図を組み合わせると、標準およびフルスペクトル OOD 検出を簡単に理解できます。

標準OOD検出

目的(1):ID分布に基づいて分類器をトレーニングし、IDデータを正確に分類できるようにする。ここでは、テスト ID データとトレーニング ID データの間に共変量シフトがないものと想定します。

目的(2):訓練された分類器に基づいて、任意のサンプルに対してID/OODバイナリ分類を実行できるOOD検出方法を設計する。上の図では、これは (a) と (c) + (d) を区別することに相当します。

フルスペクトルOOD検出

目的 (1): 標準的な OOD 検出と似ていますが、共変量シフトが考慮される点が異なります。つまり、テスト ID 画像がトレーニング画像と比較して共変量シフトを持っているかどうかに関係なく、分類器はそれを対応する ID カテゴリに正確に分類する必要があります (たとえば、猫と犬の分類器は、「きれいな」猫と犬の画像を正確に分類するだけでなく、ノイズが多くぼやけた猫と犬の画像にも一般化できる必要があります)。

目的(2):共変量シフトされたIDサンプルも考慮し、それらを通常の(共変量シフトのない)IDサンプルおよびOODサンプルと区別する。これは、上図の(a) + (b)と(c) + (d)の区別に対応します。

フルスペクトル OOD テストが重要なのはなぜですか?

詳しい人なら、フルスペクトルOOD検出の目標(1)が、実はもう一つの非常に重要な研究テーマである分布外一般化に対応していることに気付いたかもしれない。

OOD 一般化における OOD は共変量シフトのあるサンプルを指し、OOD 検出における OOD は意味シフトのあるサンプルを指すことを明確にする必要があります。

これらの両方の変化は現実世界では非常に一般的ですが、既存の OOD 一般化と標準的な OOD 検出では、そのうちの 1 つだけが考慮され、もう 1 つは無視されます。

対照的に、フルスペクトル OOD 検出では、同じシナリオで両方のシフトが自然に考慮され、理想的な分類器がオープンワールドでどのように機能するかについての期待をより正確に反映します。

実験結果と新たな発見

バージョン 1.5 では、OpenOOD は 6 つのベンチマーク データセット (標準 OOD 検出用に 4 つ、フルスペクトル OOD 検出用に 2 つ) に対して約 40 の方法の統一された包括的なテストを実施しました。

この論文では実装された方法とデータセットについて説明しているので、ぜひご覧ください。すべての実験は OpenOOD コード ベースでも再現できます。ここでは、比較結果から得られた知見を直接議論します。

写真

発見 1: 勝者は一人もいない。

上記の表から、単一の方法ではすべてのベンチマーク データセットに対して一貫して優れたパフォーマンスを発揮できないことが容易にわかります。

たとえば、事後推論手法である ReAct と ASH は、大規模なデータセット ImageNet では優れたパフォーマンスを発揮しますが、CIFAR では他の手法に比べて優位性はありません。

対照的に、RotPred や LogitNorm など、トレーニング中に制約を追加する一部の方法は、小規模なデータセットでは後処理方法よりも優れたパフォーマンスを発揮しますが、ImageNet ではパフォーマンスが低下します。

発見 2: データ拡張が役立ちます。

上記の表に示すように、データ拡張は OOD 検出用に特別に設計されたものではありませんが、OOD 検出のパフォーマンスを効果的に向上させることができます。さらに驚くべきことは、データ拡張によってもたらされる改善と、特定の OOD 後処理方法によってもたらされる改善が、互いに増幅し合うことです。

AugMix を例にとると、最も単純な MSP ポストプロセッサと組み合わせると、ImageNet-1K で 77.49% の OOD に近い検出率を達成します。これは、データ強化なしのクロスエントロピー損失でトレーニングされた検出率 77.38% よりもわずか 1.47% 高いだけです。

ただし、AugMix をより高度な ASH ポストプロセッサと組み合わせると、対応する検出率はクロスエントロピー ベースラインよりも 3.99% 高くなり、テストで最高の 82.16% に達します。このような結果は、データ強化とポストプロセッサの組み合わせが将来的にOOD検出機能をさらに向上させる大きな可能性を秘めていることを示しています。

発見 3: フルスペクトル OOD 検出は、現在の検出器にとって課題となります。

上の図から、シーンが標準の OOD 検出からフルスペクトル OOD 検出に切り替わると (つまり、共変量シフト ID 画像がテスト ID データに追加されると)、ほとんどの方法でパフォーマンスが大幅に低下する (検出率が 10% 以上低下する) ことがはっきりとわかります。

つまり、現在の方法では、実際の意味は変わっていないにもかかわらず、共変量シフトされた ID 画像を OOD としてマークする傾向があります。

この動作は、人間の知覚に反しています (これはフルスペクトル OOD 検出の目標でもあります)。人間のラベル付け担当者が猫と犬の写真をラベル付けしているとします。ノイズが多くぼやけた猫と犬の写真を見せられた場合でも、それが猫/犬であることは認識できるはずです。これは、未知の分布外 OOD データではなく、分布内 ID データです。

一般的に、現在の方法では OOD 検出の全範囲を効果的に解決することはできず、これは将来この分野における重要な問題になると考えています。

さらに、データ拡張はフルスペクトル OOD 検出に依然として有効であるなど、ここに記載されていない多くの発見があります。改めて、皆様に私たちの論文を読んでいただければ幸いです。

見通し

OpenOOD のコード ベース、テスター、ランキング、ベンチマーク データセット、詳細なテスト結果によって、あらゆる分野の研究者が結集し、この分野が発展することを願っています。 OOD 検出の開発とテストに OpenOOD をご利用いただけることを期待しています。

また、フィードバックの提供、OpenOOD コード ベースとリーダーボードへの最新のメソッドの追加、OpenOOD の将来のバージョンの拡張など、OpenOOD へのあらゆる形式の貢献も歓迎します。

参照: https://arxiv.org/abs/2306.09301

<<:  世界初のAI生成薬がヒト臨床試験に進出

>>:  TRSのTuotianビッグモデルが正式にリリースされ、メディア、金融、政府関係の3つの業界向けのビッグモデルが発表されました。

ブログ    
ブログ    
ブログ    

推薦する

...

...

人工知能技術が教育業界に与える主な影響は何ですか?

今日、人工知能技術は社会のあらゆる分野にますます大きな影響を及ぼしており、教育も例外ではありません。...

最初の壮大な統合事前トレーニング済みモデル! BEVGPT: 予測、意思決定、動作計画を統合します。

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

CNN の弱点を見つけ、MNIST の「ルーチン」に注意する

[[191828]] CNN は現在非常に人気のあるモデルです。多くの画像検索問題において、CNN ...

ワン・ガン:人工知能は伝統的な産業の雇用の26%を置き換え、38%の新規雇用を創出する

[[265464]]人工知能の応用分野はさらに充実し、インテリジェント製造、インテリジェント運転、ス...

デジタル経済の発展を深め、人工知能時代の開放性と革新性を把握する

最近、ファーウェイの副社長兼コンピューティング製品ラインのプレジデントである鄧太華は、Huawei ...

2020~2030年:人工知能が主流となる10年

ロボット工学者でありSF作家でもあるアイザック・アシモフは、小説『ロボット』(1950年)の中で、2...

...

世界一のAIサーバーになるための勇気と戦略

現在、人工知能はますます産業に統合されつつあります。アプリケーション側では、顔認識決済、自動運転車、...

MIT の Jia Haojun 博士と Duan Chenru 博士への独占インタビュー: AI4S 時代の化学物質の発見 - 「AI 錬金術」

エジソンが何千もの材料をフィラメントとして試し、試行錯誤を繰り返し、決して諦めない精神でようやく日常...

Redis Chat (1): ナレッジグラフの構築

シナリオ: Redis インタビュー[[264477]] (インターネットからの写真)面接官: あな...

ビッグデータとAIの未来は1つに集約される

ビッグデータ、分析、AI に関しては、価値はデータの収集から(あるいはそこから何らかの洞察を引き出す...

そうだ!機械学習を使用してビリビリの株価動向を予測する

[[419019]]この記事では、主にPythonを使用してビリビリの株価を分析する方法について説明...

看護ロボットは医療従事者の仕事に完全に取って代わることができるのでしょうか?

研究によると、共感と前向きな指導は、医師が患者の痛みを和らげ、術後の回復を早め、精神科薬の使用を減ら...