知っておくべき6つのAIバイアス

知っておくべき6つのAIバイアス

[[441742]]

子どもは成長するにつれて、聴覚、視覚、触覚などの感覚を通して周囲の世界について学びます。子どもが世界を理解する方法、子どもが形成する意見、そして最終的に下す決断はすべて、子どもが育った環境によって影響を受けます。たとえば、性差別的なコミュニティで生活し、育った子どもは、異なる性別に対する見方に偏見があることに気付かないかもしれません。

機械学習モデルでも同様です。彼らは感覚を使って知覚するのではなく、人間が提供するデータを使って学習します。このため、機械学習モデルのトレーニングに使用するデータは、可能な限り偏りのないものにすることが重要です。以下では、機械学習における最も一般的なバイアスのいくつかについて説明します。

(1)歴史的偏見

機械学習アルゴリズムをトレーニングするためのデータを収集する場合、多くの場合、履歴データを取得するのが最も簡単な開始点となります。ただし、注意しないと、履歴データに存在するバイアスが簡単に含まれてしまいます。

Amazonを例に挙げてみましょう。同社は2014年に求職者を自動的に審査するシステムの構築に着手した。アイデアは、システムに何百もの履歴書を入力し、最適な候補者を自動的に選び出すことです。このシステムは、同社の過去 10 年間の求人応募と入学結果に基づいてトレーニングされました。では、何が問題なのでしょうか? それは、Amazon の従業員 (特に技術職) の大半が男性だからです。 AIアルゴリズムは、アマゾンには女性従業員よりも男性従業員の方が多いため、男性の方が適した候補者であると学習し、そのため女性の求職者を差別した。 2015年までに、偏見によりプロジェクトは中止されなければなりませんでした。

(2)サンプルバイアス

サンプル バイアスは、トレーニング データがモデルの実際の使用方法を正確に反映していない場合に発生します。多くの場合、1 つのグループが過剰に代表されたり、過少に代表されたりします。

たとえば、音声からテキストへの変換をトレーニングする米国のプロジェクトでは、大量のオーディオ クリップとそれに対応する文字起こしが必要でした。オーディオブックは大量のデータを取得することになりますが、このアプローチの問題点は何でしょうか?

オーディオブックの大半は、高学歴の白人男性によってナレーションされていることが判明しました。当然のことながら、このアプローチを使用してトレーニングされた音声認識ソフトウェアは、ユーザーが異なる社会経済的背景や人種的背景を持つ場合、パフォーマンスが低下しました。

(3)ラベリングバイアス

機械学習アルゴリズムをトレーニングするために必要な膨大な量のデータは、有用であるためにはラベル付けされる必要があります。ユーザーが Web サイトにログオンする場合、多くの場合は自分でログオンします。たとえば、信号機がある四角形を識別するように要求するとします。実際には、視覚認識モデルのトレーニングに役立つように、その画像のラベルのセットを確認していることになります。ただし、データにラベルを付ける方法は多種多様であり、ラベル付けに一貫性がないとシステムに偏りが生じる可能性があります。

(4)集計バイアス

データを集約して簡素化したり、特定の方法で提示したりすることがあります。これにより、モデルが作成される前と後の両方でバイアスが生じる可能性があります。たとえば、次のグラフ:

働く時間が長くなるにつれて、人々の給料がどれだけ増加するかを示しています。非常に強い相関関係があり、長く働けば働くほど、より多くの給料を受け取ることができます。次の画像は、この集計を作成するために使用されたデータの概要を示しています。

(5)確証バイアス

簡単に言えば、確証バイアスとは、人々が自分の既存の信念を裏付ける情報を信じたり、自分の既存の信念に合わない情報を捨てたりする傾向のことです。理論的には、データとモデリングの両方において偏りのない、これまでに作成された中で最も正確な機械学習システムを構築することが可能です。

確証バイアスは、何らかのアクションを起こす前に人間によるレビューが必要となる機械学習アプリケーションで特に多く見られます。医療業界での AI の使用により、医師がアルゴリズムによる診断を自分の経験や理解と一致しないという理由で却下するケースがすでに発生しています。多くの場合、多くの医師は最新の研究文献を読んでおらず、そこには自分の知識や経験とは異なる症状、技術、または診断結果が記載されている可能性があります。実際には、医師が読むジャーナルの数は限られていますが、機械学習システムはそれらすべてをインデックス化することができます。

(6)評価バイアス

あるチームが、米国選挙の投票率を予測するための機械学習モデルを構築しており、年齢、職業、収入、政党所属などのさまざまな特徴を取り入れることで、誰かが投票するかどうかを正確に予測できると期待しているとします。そこで私たちはモデルを構築し、地方選挙キャンペーンを通じてそれをテストし、その結果に非常に満足しました。誰かが投票するかどうかを 95% の確率で正確に予測できるようです。

チームは、このモデルが米国の選挙運動に適用されたことに非常に失望した。設計とテストに長い時間がかかったモデルは、55% しか正しくなく、ランダムな推測よりもわずかに優れているだけだったからです。その結果が悪かったのは評価バイアスの一例です。地方選挙運動を通じてモデルを評価することで、意図せずしてその地域にしか機能しないシステムを設計してしまった。また、米国の他の地域の投票パターンはまったく異なり、初期のトレーニングデータに含まれていたとしても、完全には考慮されていませんでした。

結論は

これらは、バイアスが機械学習に影響を与える 6 つの異なる方法です。これは網羅的なリストではありませんが、機械学習システムが偏りを生じてしまう最も一般的な方法について、よく理解できるはずです。

<<:  データ構造とアルゴリズム: 文字列の分割とバランス

>>:  データ構造とアルゴリズムの比較 バックスペースを含む文字列!

ブログ    
ブログ    

推薦する

ドローン技術がモバイルIoTの範囲を拡大

無人航空機(口語では「ドローン」と呼ばれる)は、航空業界に無人航空機を導入することで、ライト兄弟の有...

Scikit-Learn を使用して、MNIST データセットを分類するための K 近傍法アルゴリズムを構築する

K 最近傍アルゴリズム、K-NN とも呼ばれます。今日のディープラーニングの時代では、この古典的な機...

...

AI音声アシスタントの台頭:利便性とセキュリティのバランス

ChatGPT は私たちが知る限り最新の音声アシスタントです。 SiriやAlexaなどの企業は長年...

...

オープンソースの大規模言語モデル (LLM) の概要

大規模言語モデル(LLM)は人工知能分野における重要な研究方向であり、ChatGPT以降急速な発展を...

ロボットと触覚センシング技術の衝突、人間とロボットの触覚センシングを初めて探る記事

触覚は人間が相互作用を調整する主な方法の 1 つです。触覚を通じて知覚される触覚は、人間が物体の大き...

テンセントゲームズが顔認識の範囲を拡大。未成年者のデータをどう保護するのか?

近年、モバイルインターネットの発展とスマートフォンの普及により、さまざまなモバイルゲームが急速に普及...

AIIA2020人工知能開発者会議が成功裏に開催され、オープンソースを採用してAIの新たな勢いが生まれました。

【51CTO.comオリジナル記事】 9月28日、「オープンソース開発とオープン性」をテーマにした...

スマートヘルスケアは2つのセッションの焦点となり、将来の開発では課題に正面から取り組む必要がある

医療はこれまでずっと社会から注目されてきた人々の生活の重要な分野です。医療資源の不足、医療スタッフの...

...

...

...

OpenAI取締役会の爆発的な活動が暴露される!投資家は訴訟の準備をしている、ネットユーザー:GPT-4はあなたよりも人を解雇するのが得意

OpenAIのドラマはまだ終わっておらず、多くのとんでもない行為が暴露されている。アルトマン氏を解雇...

疫病との戦いにおけるドローン:監視、空中管制、そして徹底的な説得

ドローンと聞いて何を思い浮かべますか?おそらくほとんどの人の答えは写真撮影でしょう。しかし、今回の疫...