機械学習におけるモデルのバイアスを理解する

機械学習におけるモデルのバイアスを理解する

人工知能 (AI) と機械学習 (ML) の分野では、意思決定プロセスに予測モデルを組み込むことがますます一般的になっていますが、困難なのは、意思決定者がこれらのモデルがモデルの予測に基づいて偏った、または不公平な決定 (意図的または意図的でない差別) を行わないようにする必要があることです。銀行、保険、雇用などの業界では、面接候補者の特定、ローン/クレジットの承認、保険料の格付けなどのソリューションとしてモデルが使用されていると想像してください。最終決定に偏りがあった場合、エンドユーザーにどの程度の損害が発生するでしょうか。したがって、ML の問題に取り組んでいる製品マネージャー、ビジネス アナリスト、データ サイエンティストは、モデル予測バイアスのさまざまなニュアンスを理解することが重要です。

MLモデルにおける公平性とバイアスとは何か

機械学習モデルのバイアスは、モデルのトレーニングに使用される十分な機能の欠如と不完全な関連データセットによって発生します。モデルのトレーニングに使用される機能と関連データは人間によって設計および収集されるため、データ サイエンティストや製品マネージャーの偏見が、モデルのトレーニング用のデータ準備に影響を与える可能性があります。たとえば、データ特徴の収集プロセス中に 1 つ以上の特徴が欠落したり、トレーニングに使用されるデータ セットの範囲が不十分になったりします。言い換えれば、モデルはデータセット内に存在する根本的な規則性を正しく捉えることができず、結果として得られる機械学習モデルは偏ったもの(高バイアス)になってしまう可能性があります。

機械学習モデルのバイアスについては、次の側面からさらに理解することができます。

適切な機能が不足すると、バイアスが生じる可能性があります。このようなモデルは適合不足、つまりバイアスが高く分散が低いモデルです。 適切なデータセットの欠如: 機能が適切であっても、適切なデータが不足するとバイアスが生じる可能性があります。異なる性質の大量のデータ(さまざまなシナリオをカバー)により、バイアスの問題を解決できます。ただし、モデルがすべてのタイプのデータセットに一般化できないため、モデルのパフォーマンスに影響する可能性があるため、過度に高い分散を避けるように注意する必要があります。

モデルの偏りが大きいと判断された場合、そのモデルは不公平であると判断され、その逆も同様です。バイアスを減らそうとすると、分散が大きく、複雑度の高いモデルが作成される可能性があることに注意してください。次の図は、バイアスと分散の観点から見たモデルの複雑さを表しています。

注意: バイアスが減少すると、モデルはより複雑になり、大きな分散を示す可能性があります。

ML モデルの公平性/バイアスをテストする方法

ML モデルが公平であるか偏っているかをテストするには、まずモデルにどの程度偏りがあるかを理解する必要があります。一般的なアプローチは、モデルの予測/出力に対する入力値(機能に関連)の相対的な重要性を決定することです。入力値の相対的な重要性を決定すると、モデルがディスカッション セクションの保護された属性 (年齢、性別、肌の色、教育など) に過度に依存するのを防ぐことができます。その他のテクノロジーには、監査データ分析、ML モデリング パイプラインなどがあります。

モデルのバイアスと関連する公平性を判断するには、次のフレームワークを使用できます。

Lime FairML SHAP Google What-If IBM バイアス評価ツールキット

偏差の特徴と性質

バイアスにつながる一般的な特性と特徴は次のとおりです。

人種 性別 肌の色 宗教 国籍 婚姻状況 性的指向 学歴 収入源 年齢

上記の特性に関連するデータが引き起こす可能性のある潜在的なバイアスを考慮して、モデルと関連するパフォーマンスのトレーニングとテストに適切な戦略を採用したいと考えています。

業界におけるAIバイアスの例

銀行業務: システムに導入されたモデルのトレーニング データ (性別、教育、人種、場所など) に偏りがあったため、有効なローン申請者のローン申請が拒否されました。あるいは、申請者が承認基準を満たしていないにもかかわらず、融資申請が承認される場合もあります。

保険: 予測モデルのデータセットがすべての機能をカバーしていないため、高額の保険料を支払う必要がある場合があります。

雇用: 偏った機械学習モデルが、人種や肌の色などの属性に基づいて候補者の履歴書を誤って選別し、その結果、資格のある候補者が選別されず、企業は優秀な候補者を採用する機会を逃してしまいます。

住宅: 住宅分野では、場所、コミュニティ、地理、その他の関連データの導入により、プロセス中に偏差が発生する可能性があり、その結果、モデルのバイアスが大きくなり、住宅価格について誤った予測が行われ、最終的に所有者と顧客 (購入者) が取引機会を失うことになります。

詐欺(犯罪者/テロリスト):人種、宗教、国籍などの特性に関するトレーニング モデルの偏りにより、犯罪を犯していない人物が潜在的な犯罪者として分類され、尋問されます。例えば、ある国や地域では、ある宗教の人物がテロ組織であると疑われています。今では、それは個人的な偏見の一部となり、その偏見がモデルに反映されます。

政府: 政府が特定のグループの人々に対して政策を定めていると仮定します。機械学習は、これらの計画の受益者を分類する役割を担います。モデルの偏りにより、関連するポリシーを享受すべき人々がそのポリシーを享受できず、関連するポリシーの資格がない人々がポリシーの受益者になる可能性があります。

教育: モデルのトレーニングに使用されたデータセットが不完全であるため、基礎となる機械学習モデルに偏りがあり、学生の入学申請が拒否されたとします。

金融: 金融業界では、偏ったデータを使用して構築されたモデルにより、ローンの申請者が誤って承認され、信用機会均等法に違反する可能性があります。さらに、誤って承認された後、ユーザーは最終結果に疑問を抱き、企業に不承認の理由を説明するよう求めます。

1974 年に制定された法律により、金融融資において人種、肌の色、宗教、性別などに基づいて個人または組織を差別することが禁止されました。モデル構築プロセス中、プロダクト マネージャー (ビジネス アナリスト) とデータ サイエンティストは、モデルの構築 (トレーニングまたはテスト) に使用されるデータが普遍的で正確であることを保証するために、考えられるすべての状況を可能な限り考慮する必要があります。わずかな詳細がバイアスにつながる可能性があります。

要約する

この記事を読むことで、機械学習モデルのバイアス、バイアスに関連するプロパティと特性、さまざまな業界におけるモデルバイアスの例について学びました。バイアスが発生する理由は、製品マネージャーやデータ サイエンティストが機械学習の問題を研究する際に、モデルのトレーニングに使用されるデータの特徴、属性、データ セットの包括的な概要を把握していないため、機械学習モデルが重要な特徴を捉えることができず、モデルをトレーニングするためにあらゆる種類のデータをカバーできないことが原因であると考えられます。バイアスの大きい機械学習モデルでは、利害関係者が不公平または偏った決定を下す可能性があり、取引プロセス全体、さらには最終顧客の利益に重大な影響を及ぼすことになります。

<<:  ビッグデータとAIの未来は1つに集約される

>>:  機械学習ニューラルネットワークとPython実装

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

海雲捷迅2018ビッグデータ博覧会ツアー——2018ビッグデータ博覧会人工知能世界大会決勝戦が終了

5月25日、2018年中国国際ビッグデータ博覧会人工知能世界大会決勝戦が予定通り貴陽で開催され、世界...

...

門戸を開くと、エンタープライズ機械学習が急成長

[[394391]]自動運転から機械翻訳、不正取引の特定から音声認識、衛星画像認識からビデオストリー...

...

今後数年間の AI 求人市場はどのようになるでしょうか?

[[353999]] AI がもたらす自動化の脅威によって仕事が奪われる一方で、AI は新しい職種...

...

G7、先進的なAIシステムを開発する企業の行動規範に合意へ

10月30日、主要7カ国(G7)が月曜日に高度な人工知能(AI)システムを開発する企業向けの行動規範...

フロントエンドアルゴリズムシステム演習:リンクリストの章が完了

[[357916]]実践する前に、データ構造やアルゴリズム、あるいはこのシリーズについての誤解を避け...

誇張か革命か?産業メタバースの4つの大きなトレンド

産業用仮想世界は、製造業者がすでに進めているデジタル変革を補完できるでしょうか? メタバースについて...

RNNに注目メカニズムを導入し、5つの主要分野におけるシーケンス予測問題を解決する

[[198915]]エンコーダー/デコーダー アーキテクチャは、多くの分野で最先端のパフォーマンスを...

Google 数学 AI が Nature に発表: IMO 金メダルの幾何学レベル、定理証明は呉文軍の 1978 年の法則を上回る

Google DeepMindが再びNatureを出版、AIのAlphaシリーズが力強く復活、数学レ...

AI研究者の邢波氏:機械学習には明確な理論的枠組みが欠けており、評価の目標と方法を再定義する必要がある

[[426278]] 2021年1月、コンピュータサイエンスと人工知能分野のトップ学者であるエリッ...

人工知能はドローンの将来にどのような影響を与えるのでしょうか?

人工知能の破壊的な可能性を解き放ち、それがドローンの未来をどのように変えるのかを探ります。常に進化を...

従来のグラフエンジンから GNN へ: 計算グラフと機械学習の進化

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

スマートシティの未来: AI、データ、都市変革

2008 年の金融危機後、都市化とサービス提供に対する新たなアプローチが世界中で定着し始めました。テ...