この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 それは明らかにシマウマなのに、なぜ AI はそれを犬だと言っているのでしょうか? 分類モデルは、画像を分類するときに誤った決定を下すことがあります。 学習後、AI はいくつかの予測を間違えることもありますが、これは何らかのリンクの間違いが原因であるに違いありません。 論文では、スタンフォード大学の 2 人の博士課程の学生と James Zou 教授が、分類モデルが間違いを犯す理由について調査しました。 次に、この論文では概念的反事実的説明という方法を提案し、その有効性を評価します。 このアプローチにより、モデルの分類基準を再定義して、AI が間違いを犯す理由を説明できるようになります。 一緒に見てみましょう。 AIはなぜ間違いを犯すのでしょうか?分類モデルのその後の予測の精度を向上させたい場合は、まずモデルのどこで間違いが生じたかを理解する必要があります。 一般的に、AI が予測を間違える理由は以下のとおりです。 まず、モデルの実際の予測プロセス中に、分類基準が事前トレーニング中の基準から逸脱する可能性があり、その結果、トレーニングモデルが実際の予測プロセスで効果を発揮しなくなり、予測結果の精度が低下します。 たとえば、病理学者は事前にトレーニングされたモデルを使用して組織病理学画像を分類しますが、そのモデルは病理学者の画像ではうまく機能しません。 これは、元のトレーニング データと比較して、画像の色調が異なることが原因である可能性があります。 第二に、モデルが学習するにつれて、一見無関係な要素を識別された画像に関連付ける「疑似相関」と呼ばれるものを学習する場合があります。 次の例をご覧ください: モデルのトレーニング プロセス中に、サンプル内の犬の写真にはすべて雪が積もっていたため、モデルは雪と犬を関連付け、雪のない犬は犬ではないと誤って予測しました。 これは、使用されるデータセットがすべて同じシナリオで収集され、モデルの一般化を妨げる可能性があるためです。 さらに、モデルをトレーニングする際に人為的な偏差が生じる可能性があります。 たとえば、ある皮膚科医は、画像内の皮膚疾患を分類するように訓練された AI を使用しましたが、他の同僚には同じ結果は得られませんでした。 これは、トレーニング サンプルでは肌の色が均一で、年齢分布が狭いためと考えられます。 AI が「間違いを犯す」理由がわかったところで、モデルのどこでエラーが発生したかを正確に判断するにはどうすればよいでしょうか。 AIは間違いを犯す、と説明ジェームズ・ゾウは論文の中で、反事実的概念説明(CCE)と呼ばれる手法を提案しました。 具体的には、この方法は入力データと予測結果の関係を調査し、最終的にモデル内のエラーを見つけるために使用されます。 それで、CCE はそれをどのように説明するのでしょうか? コンセプトライブラリの定義まず最初に、概念ライブラリ C を設定して改良すること、つまり分類標準を作成することです。 具体的には、概念ライブラリCの各概念は、デバイスc1 (街路、雪など) 、画像品質c2 (鮮明、ぼやけなど)などの画像の分類に使用できます。 このようにして、解釈可能な概念ライブラリのセット C={c1, c2, …} を取得できます。 次に、各概念に対応するトレーニング データを見つける必要があります。 具体的には、一貫性のある例(Pci)と一貫性のない例(Nci)を収集することであり、一般的にその数は同じである必要があります(Pci=Nci=100) 。 CCE は、それぞれの概念について、その分類方法と「思考方法」を学習します。 2つの方法: 1つは、サポートベクターマシン(SVM)を学習して、2つのものを最適に区別できるアルゴリズム(線形分類器)を見つけることです。 もう 1 つは、対応する概念活性化ベクトル(CAV)を学習することです。これを使用して、画像が誤分類される具体的な理由を説明することができます。 以下の写真のように、どちらもシマウマの画像ですが、誤分類の理由は異なります。 この手順は、評価するモデルごとに 1 回だけ実行すればよく、その後は CAV を使用して任意の数の誤分類を説明できます。 エラー分類基準を考慮するとモデル内のさまざまな概念の重みを変更することで、分類基準を適宜調整できます。これらの調整は、次の原則を満たす必要があります。 1. 正確性: 分類基準が期待される結果を達成する場合、それは正しいとみなされます。 2. 妥当性: 分類基準は人間の基本的な認知に違反してはならない。 3. スパース性: 最終的な目標は、モデルのエラーをユーザーに伝えることです。変数が多すぎると、情報を効果的に伝えることができません。 私たちの目標は、予測結果をトレーニング結果にできるだけ近づけること、つまりクロスエントロピー損失を最小限に抑えることです。 そのため、最終的に誤分類を修正する効果が得られるように、モデルの予測基準を継続的に最適化し、修正する基準を調整し、重み付けする必要があります。 これを理解したところで、CCE を使用して分類モデルのエラーを「検出」する方法を実際の例で確認してみましょう。 ここで、分類モデルはシマウマの画像を誤ってアフリカの狩猟犬として識別しました。 そこで、まず、モデルがシマウマを犬として識別するための一連の基準を生成しました。 これらの基準はスコア付けされ、スコアがプラスの場合、この概念を画像に追加すると正しい分類の可能性が高くなり、その逆も同様です。 この例では、縞模様の概念が追加されると、シマウマとして識別される確率が高くなります。 図c)では、CCE分析を通じて、「水玉」と「犬」がモデルの予測エラーの原因であることが直感的にわかります。 CCE はどれくらい効果的ですか?これを読んだ後、誰もが CCE の原則について予備的な理解を得たと思います。 それで、その判断はどれほど正確で、その効果はどのようなものでしょうか? CCE の主な目的は、トレーニング プロセス中にモデルによって学習された「疑似相関」を明らかにすることです。画像に表示されるその他の「無関係な要素」や画像の疑似相関をキャプチャするために使用できます。 テストの結果、ほとんどの場合、モデルは誤分類されたテスト サンプルの90% 以上で誤った相関関係を識別することがわかりました。 この表を見ると、他の方法と比較して、CCE を使用すると、サンプル内の偽の相関関係を識別する可能性が最も高くなります。 CCE は、次の例に示すように、サンプル内の偽の相関関係を正確に識別できます。 リンゴの画像の色を変更すると(灰色にする) 、分類モデルがエラーを識別する確率が増加し(黒線) 、誤った相関関係として「緑」を識別する CCE のスコアが高くなります(緑線) 。 さらに、CCE は医療分野でも活用できる可能性があります。 Abubakar Abid らは CCE を使用して、胸部 X 線画像における皮膚科(皮膚疾患の分類)および心臓病学(気胸の分類)の関連テストを実施しました。 CCE は学習したバイアスと画像品質条件を使用してモデル エラーを説明しますが、これは専門の皮膚科医によっても確認されています。実際、これらの要因が皮膚画像を分類するのが難しい主な理由です。 さらに、CCE も非常に高速です。 コンセプト ベースは、単純なサポート ベクター マシンを使用して 1 回学習するだけで済み、単一の CPU でテスト例ごとに0.3 秒未満しかかかりません。 重要なのは、あらゆるディープ ネットワークに簡単に適用でき、トレーニング データを必要とせずにモデルが間違いを犯す理由を検出できることです。 この方法に興味があり、自分で試してみたい場合は、下のリンクをクリックして確認してください。 著者についてこの論文の責任著者であるジェームズ・ゾウ氏は、スタンフォード大学の生物医学データサイエンス学部およびコンピューターサイエンス・電気工学部の助教授です。 彼は2014年にハーバード大学で博士号を取得し、マイクロソフトリサーチのメンバー、ケンブリッジ大学のゲイツ奨学生、カリフォルニア大学バークレー校のサイモンズフェローを務めました。 彼の研究は、スローンフェローシップ、NSF CAREER 賞、Google、Amazon、Tencent からの AI 賞によってサポートされています。 アブバカール・アビド氏(前)とマート・ユクセゴヌル氏(後)は、この論文の第一著者であり、両者ともスタンフォード大学の博士課程の学生である。 |
<<: チップ大手は、写真を撮ることよりも面白くないこれらの新しいAI技術を秘密裏に開発している
>>: 顧客サービスの応答時間を短縮して潜在顧客の喪失を回避する方法
顔認識端末は人事管理や出勤簿、人通りの多いセキュリティチェックポイントなどで広く利用されている。今年...
肯定的ですか? 否定的ですか? 中立的ですか? Stanford CoreNLP コンポーネントと数...
最近、Github を閲覧していたところ、Open Interpreter という魔法のツールを見つ...
この記事では、ディープ ニューラル ネットワークの一般的な概要を説明します。今日では、人工知能につい...
チャットボットは、実生活で人工知能を活用するための最も人気があり、広く採用され、敷居の低い方法の 1...
ロボティック・プロセス・オートメーション (RPA) は、ビジネス プロセスの合理化に役立つ重要なテ...
アメリカのSF大作では、脳の記憶を読んだり、脳を通じて他人をコントロールしたりすることがよく行われて...
シナリオの観点から、音声認識はストリーミング音声認識と非ストリーミング音声認識に分けられます。非スト...
さまざまな負荷分散アルゴリズムが存在します。これらを研究する際には、まずこれらの方法の概念を理解する...
[[432257]]ソースコードはこちら GitHub: https://github.com/na...
1. 問題と原因の分析インダストリアル インターネットは、新世代の情報通信技術と高度な製造技術の深い...
[[182792]]協調フィルタリング推奨アルゴリズムにおける行列分解の応用では、推奨アルゴリズムに...
「ブロックチェーンが停滞期に入ることは必ずしも悪いことではありません。この期間中、私たちはゆっくりと...