機械学習におけるモデルのバイアスを理解する

機械学習におけるモデルのバイアスを理解する

人工知能 (AI) と機械学習 (ML) の分野では、意思決定プロセスに予測モデルを組み込むことがますます一般的になっていますが、困難なのは、意思決定者がこれらのモデルがモデルの予測に基づいて偏った、または不公平な決定 (意図的または意図的でない差別) を行わないようにする必要があることです。銀行、保険、雇用などの業界では、面接候補者の特定、ローン/クレジットの承認、保険料の格付けなどのソリューションとしてモデルが使用されていると想像してください。最終決定に偏りがあった場合、エンドユーザーにどの程度の損害が発生するでしょうか。したがって、ML の問題に取り組んでいる製品マネージャー、ビジネス アナリスト、データ サイエンティストは、モデル予測バイアスのさまざまなニュアンスを理解することが重要です。

MLモデルにおける公平性とバイアスとは何か

機械学習モデルのバイアスは、モデルのトレーニングに使用される十分な機能の欠如と不完全な関連データセットによって発生します。モデルのトレーニングに使用される機能と関連データは人間によって設計および収集されるため、データ サイエンティストや製品マネージャーの偏見が、モデルのトレーニング用のデータ準備に影響を与える可能性があります。たとえば、データ特徴の収集プロセス中に 1 つ以上の特徴が欠落したり、トレーニングに使用されるデータ セットの範囲が不十分になったりします。言い換えれば、モデルはデータセット内に存在する根本的な規則性を正しく捉えることができず、結果として得られる機械学習モデルは偏ったもの(高バイアス)になってしまう可能性があります。

機械学習モデルのバイアスについては、次の側面からさらに理解することができます。

適切な機能が不足すると、バイアスが生じる可能性があります。このようなモデルは適合不足、つまりバイアスが高く分散が低いモデルです。 適切なデータセットの欠如: 機能が適切であっても、適切なデータが不足するとバイアスが生じる可能性があります。異なる性質の大量のデータ(さまざまなシナリオをカバー)により、バイアスの問題を解決できます。ただし、モデルがすべてのタイプのデータセットに一般化できないため、モデルのパフォーマンスに影響する可能性があるため、過度に高い分散を避けるように注意する必要があります。

モデルの偏りが大きいと判断された場合、そのモデルは不公平であると判断され、その逆も同様です。バイアスを減らそうとすると、分散が大きく、複雑度の高いモデルが作成される可能性があることに注意してください。次の図は、バイアスと分散の観点から見たモデルの複雑さを表しています。

注意: バイアスが減少すると、モデルはより複雑になり、大きな分散を示す可能性があります。

ML モデルの公平性/バイアスをテストする方法

ML モデルが公平であるか偏っているかをテストするには、まずモデルにどの程度偏りがあるかを理解する必要があります。一般的なアプローチは、モデルの予測/出力に対する入力値(機能に関連)の相対的な重要性を決定することです。入力値の相対的な重要性を決定すると、モデルがディスカッション セクションの保護された属性 (年齢、性別、肌の色、教育など) に過度に依存するのを防ぐことができます。その他のテクノロジーには、監査データ分析、ML モデリング パイプラインなどがあります。

モデルのバイアスと関連する公平性を判断するには、次のフレームワークを使用できます。

Lime FairML SHAP Google What-If IBM バイアス評価ツールキット

偏差の特徴と性質

バイアスにつながる一般的な特性と特徴は次のとおりです。

人種 性別 肌の色 宗教 国籍 婚姻状況 性的指向 学歴 収入源 年齢

上記の特性に関連するデータが引き起こす可能性のある潜在的なバイアスを考慮して、モデルと関連するパフォーマンスのトレーニングとテストに適切な戦略を採用したいと考えています。

業界におけるAIバイアスの例

銀行業務: システムに導入されたモデルのトレーニング データ (性別、教育、人種、場所など) に偏りがあったため、有効なローン申請者のローン申請が拒否されました。あるいは、申請者が承認基準を満たしていないにもかかわらず、融資申請が承認される場合もあります。

保険: 予測モデルのデータセットがすべての機能をカバーしていないため、高額の保険料を支払う必要がある場合があります。

雇用: 偏った機械学習モデルが、人種や肌の色などの属性に基づいて候補者の履歴書を誤って選別し、その結果、資格のある候補者が選別されず、企業は優秀な候補者を採用する機会を逃してしまいます。

住宅: 住宅分野では、場所、コミュニティ、地理、その他の関連データの導入により、プロセス中に偏差が発生する可能性があり、その結果、モデルのバイアスが大きくなり、住宅価格について誤った予測が行われ、最終的に所有者と顧客 (購入者) が取引機会を失うことになります。

詐欺(犯罪者/テロリスト):人種、宗教、国籍などの特性に関するトレーニング モデルの偏りにより、犯罪を犯していない人物が潜在的な犯罪者として分類され、尋問されます。例えば、ある国や地域では、ある宗教の人物がテロ組織であると疑われています。今では、それは個人的な偏見の一部となり、その偏見がモデルに反映されます。

政府: 政府が特定のグループの人々に対して政策を定めていると仮定します。機械学習は、これらの計画の受益者を分類する役割を担います。モデルの偏りにより、関連するポリシーを享受すべき人々がそのポリシーを享受できず、関連するポリシーの資格がない人々がポリシーの受益者になる可能性があります。

教育: モデルのトレーニングに使用されたデータセットが不完全であるため、基礎となる機械学習モデルに偏りがあり、学生の入学申請が拒否されたとします。

金融: 金融業界では、偏ったデータを使用して構築されたモデルにより、ローンの申請者が誤って承認され、信用機会均等法に違反する可能性があります。さらに、誤って承認された後、ユーザーは最終結果に疑問を抱き、企業に不承認の理由を説明するよう求めます。

1974 年に制定された法律により、金融融資において人種、肌の色、宗教、性別などに基づいて個人または組織を差別することが禁止されました。モデル構築プロセス中、プロダクト マネージャー (ビジネス アナリスト) とデータ サイエンティストは、モデルの構築 (トレーニングまたはテスト) に使用されるデータが普遍的で正確であることを保証するために、考えられるすべての状況を可能な限り考慮する必要があります。わずかな詳細がバイアスにつながる可能性があります。

要約する

この記事を読むことで、機械学習モデルのバイアス、バイアスに関連するプロパティと特性、さまざまな業界におけるモデルバイアスの例について学びました。バイアスが発生する理由は、製品マネージャーやデータ サイエンティストが機械学習の問題を研究する際に、モデルのトレーニングに使用されるデータの特徴、属性、データ セットの包括的な概要を把握していないため、機械学習モデルが重要な特徴を捉えることができず、モデルをトレーニングするためにあらゆる種類のデータをカバーできないことが原因であると考えられます。バイアスの大きい機械学習モデルでは、利害関係者が不公平または偏った決定を下す可能性があり、取引プロセス全体、さらには最終顧客の利益に重大な影響を及ぼすことになります。

<<:  ビッグデータとAIの未来は1つに集約される

>>:  機械学習ニューラルネットワークとPython実装

ブログ    

推薦する

AIが自動運転データセンターを構築する方法

人工知能 (AI) に関する議論のほとんどは、自動運転車、チャットボット、デジタルツイン、ロボット工...

食品市場における産業用ロボット、2026年までに7億4500万米ドルに達すると予想

[[433247]]包装食品の需要増加により、食品ロボット市場規模の成長が促進されると予想されます。...

流行中にどのようなホットなテクノロジーが使用されていますか? AI、5G、RTC、ビッグデータが登場

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

2020年のディープラーニングに必要なGPUは?48Gのビデオメモリが推奨

ご存知のとおり、現在業界で最も強力な (SOTA) ディープラーニング モデルは、膨大な量のビデオ ...

企業環境でのAIテクノロジーの活用

企業の世界における人工知能の利点は何でしょうか?企業分野における AI の主な利点の 1 つは、プロ...

緑の希望を守るため、人工知能が森林火災防止ネットワークを構築

ご存知のとおり、森林火災は世界の8大自然災害の一つであり、森林の安全に対する脅威です。平均すると、世...

広州には AI があり、Huawei Ascend Academy は本格的に始動しています。

[[335135]] 2020年7月18日午後、広州ロイヤルパレスホテルでHuawei DevRu...

...

Appleが大規模モデル圧縮技術を革新、大規模モデルを携帯電話に搭載可能に

大規模言語モデル (LLM)、特に生成事前トレーニング済みトランスフォーマー (GPT) モデルは、...

科学研究だけでなく、水中ロボットの消費者への応用も有望である。

近年、政策、技術、資金の推進により、我が国のロボット開発は目覚ましい成果を上げています。「空の月まで...

Meili United が VALSE カンファレンスで「ファッションをグラフィックで説明」する画像アルゴリズムの体験を共有する方法

最近、第7回ビジョンと学習セミナー(VALSE)が厦門大学で成功裏に終了しました。 VALSE は ...

Googleはロボットを大規模な言語モデルの手と目として機能させ、タスクを16のアクションに分解して一度に完了させます。

大型モデルはロボット工学の分野でその地位を確立しました。 「飲み物をこぼしてしまいました。助けてくれ...

ベセット氏との対話:自動運転車が人間の信頼を勝ち取るのはいつでしょうか?

[[257915]]編集者注:自動運転車が私たちの信頼を得られるのはいつでしょうか? 「十分に安全...