知っておくべき6つのAIバイアス

[[441742]]

子どもは成長するにつれて、聴覚、視覚、触覚などの感覚を通して周囲の世界について学びます。子どもが世界を理解する方法、子どもが形成する意見、そして最終的に下す決断はすべて、子どもが育った環境によって影響を受けます。たとえば、性差別的なコミュニティで生活し、育った子どもは、異なる性別に対する見方に偏見があることに気付かないかもしれません。

機械学習モデルでも同様です。彼らは感覚を使って知覚するのではなく、人間が提供するデータを使って学習します。このため、機械学習モデルのトレーニングに使用するデータは、可能な限り偏りのないものにすることが重要です。以下では、機械学習における最も一般的なバイアスのいくつかについて説明します。

（１）歴史的偏見

機械学習アルゴリズムをトレーニングするためのデータを収集する場合、多くの場合、履歴データを取得するのが最も簡単な開始点となります。ただし、注意しないと、履歴データに存在するバイアスが簡単に含まれてしまいます。

Amazonを例に挙げてみましょう。同社は2014年に求職者を自動的に審査するシステムの構築に着手した。アイデアは、システムに何百もの履歴書を入力し、最適な候補者を自動的に選び出すことです。このシステムは、同社の過去 10 年間の求人応募と入学結果に基づいてトレーニングされました。では、何が問題なのでしょうか? それは、Amazon の従業員 (特に技術職) の大半が男性だからです。 AIアルゴリズムは、アマゾンには女性従業員よりも男性従業員の方が多いため、男性の方が適した候補者であると学習し、そのため女性の求職者を差別した。 2015年までに、偏見によりプロジェクトは中止されなければなりませんでした。

（２）サンプルバイアス

サンプルバイアスは、トレーニングデータがモデルの実際の使用方法を正確に反映していない場合に発生します。多くの場合、1 つのグループが過剰に代表されたり、過少に代表されたりします。

たとえば、音声からテキストへの変換をトレーニングする米国のプロジェクトでは、大量のオーディオクリップとそれに対応する文字起こしが必要でした。オーディオブックは大量のデータを取得することになりますが、このアプローチの問題点は何でしょうか?

オーディオブックの大半は、高学歴の白人男性によってナレーションされていることが判明しました。当然のことながら、このアプローチを使用してトレーニングされた音声認識ソフトウェアは、ユーザーが異なる社会経済的背景や人種的背景を持つ場合、パフォーマンスが低下しました。

（３）ラベリングバイアス

機械学習アルゴリズムをトレーニングするために必要な膨大な量のデータは、有用であるためにはラベル付けされる必要があります。ユーザーが Web サイトにログオンする場合、多くの場合は自分でログオンします。たとえば、信号機がある四角形を識別するように要求するとします。実際には、視覚認識モデルのトレーニングに役立つように、その画像のラベルのセットを確認していることになります。ただし、データにラベルを付ける方法は多種多様であり、ラベル付けに一貫性がないとシステムに偏りが生じる可能性があります。

（４）集計バイアス

データを集約して簡素化したり、特定の方法で提示したりすることがあります。これにより、モデルが作成される前と後の両方でバイアスが生じる可能性があります。たとえば、次のグラフ:

働く時間が長くなるにつれて、人々の給料がどれだけ増加するかを示しています。非常に強い相関関係があり、長く働けば働くほど、より多くの給料を受け取ることができます。次の画像は、この集計を作成するために使用されたデータの概要を示しています。

（５）確証バイアス

簡単に言えば、確証バイアスとは、人々が自分の既存の信念を裏付ける情報を信じたり、自分の既存の信念に合わない情報を捨てたりする傾向のことです。理論的には、データとモデリングの両方において偏りのない、これまでに作成された中で最も正確な機械学習システムを構築することが可能です。

確証バイアスは、何らかのアクションを起こす前に人間によるレビューが必要となる機械学習アプリケーションで特に多く見られます。医療業界での AI の使用により、医師がアルゴリズムによる診断を自分の経験や理解と一致しないという理由で却下するケースがすでに発生しています。多くの場合、多くの医師は最新の研究文献を読んでおらず、そこには自分の知識や経験とは異なる症状、技術、または診断結果が記載されている可能性があります。実際には、医師が読むジャーナルの数は限られていますが、機械学習システムはそれらすべてをインデックス化することができます。

（６）評価バイアス

あるチームが、米国選挙の投票率を予測するための機械学習モデルを構築しており、年齢、職業、収入、政党所属などのさまざまな特徴を取り入れることで、誰かが投票するかどうかを正確に予測できると期待しているとします。そこで私たちはモデルを構築し、地方選挙キャンペーンを通じてそれをテストし、その結果に非常に満足しました。誰かが投票するかどうかを 95% の確率で正確に予測できるようです。

チームは、このモデルが米国の選挙運動に適用されたことに非常に失望した。設計とテストに長い時間がかかったモデルは、55% しか正しくなく、ランダムな推測よりもわずかに優れているだけだったからです。その結果が悪かったのは評価バイアスの一例です。地方選挙運動を通じてモデルを評価することで、意図せずしてその地域にしか機能しないシステムを設計してしまった。また、米国の他の地域の投票パターンはまったく異なり、初期のトレーニングデータに含まれていたとしても、完全には考慮されていませんでした。