子どもは成長するにつれて、聴覚、視覚、触覚などの感覚を通して周囲の世界について学びます。子どもが世界を理解する方法、子どもが形成する意見、そして最終的に下す決断はすべて、子どもが育った環境によって影響を受けます。たとえば、性差別的なコミュニティで生活し、育った子どもは、異なる性別に対する見方に偏見があることに気付かないかもしれません。 機械学習モデルでも同様です。彼らは感覚を使って知覚するのではなく、人間が提供するデータを使って学習します。このため、機械学習モデルのトレーニングに使用するデータは、可能な限り偏りのないものにすることが重要です。以下では、機械学習における最も一般的なバイアスのいくつかについて説明します。 (1)歴史的偏見機械学習アルゴリズムをトレーニングするためのデータを収集する場合、多くの場合、履歴データを取得するのが最も簡単な開始点となります。ただし、注意しないと、履歴データに存在するバイアスが簡単に含まれてしまいます。 Amazonを例に挙げてみましょう。同社は2014年に求職者を自動的に審査するシステムの構築に着手した。アイデアは、システムに何百もの履歴書を入力し、最適な候補者を自動的に選び出すことです。このシステムは、同社の過去 10 年間の求人応募と入学結果に基づいてトレーニングされました。では、何が問題なのでしょうか? それは、Amazon の従業員 (特に技術職) の大半が男性だからです。 AIアルゴリズムは、アマゾンには女性従業員よりも男性従業員の方が多いため、男性の方が適した候補者であると学習し、そのため女性の求職者を差別した。 2015年までに、偏見によりプロジェクトは中止されなければなりませんでした。 (2)サンプルバイアスサンプル バイアスは、トレーニング データがモデルの実際の使用方法を正確に反映していない場合に発生します。多くの場合、1 つのグループが過剰に代表されたり、過少に代表されたりします。 たとえば、音声からテキストへの変換をトレーニングする米国のプロジェクトでは、大量のオーディオ クリップとそれに対応する文字起こしが必要でした。オーディオブックは大量のデータを取得することになりますが、このアプローチの問題点は何でしょうか? オーディオブックの大半は、高学歴の白人男性によってナレーションされていることが判明しました。当然のことながら、このアプローチを使用してトレーニングされた音声認識ソフトウェアは、ユーザーが異なる社会経済的背景や人種的背景を持つ場合、パフォーマンスが低下しました。 (3)ラベリングバイアス機械学習アルゴリズムをトレーニングするために必要な膨大な量のデータは、有用であるためにはラベル付けされる必要があります。ユーザーが Web サイトにログオンする場合、多くの場合は自分でログオンします。たとえば、信号機がある四角形を識別するように要求するとします。実際には、視覚認識モデルのトレーニングに役立つように、その画像のラベルのセットを確認していることになります。ただし、データにラベルを付ける方法は多種多様であり、ラベル付けに一貫性がないとシステムに偏りが生じる可能性があります。 (4)集計バイアスデータを集約して簡素化したり、特定の方法で提示したりすることがあります。これにより、モデルが作成される前と後の両方でバイアスが生じる可能性があります。たとえば、次のグラフ: 働く時間が長くなるにつれて、人々の給料がどれだけ増加するかを示しています。非常に強い相関関係があり、長く働けば働くほど、より多くの給料を受け取ることができます。次の画像は、この集計を作成するために使用されたデータの概要を示しています。 (5)確証バイアス簡単に言えば、確証バイアスとは、人々が自分の既存の信念を裏付ける情報を信じたり、自分の既存の信念に合わない情報を捨てたりする傾向のことです。理論的には、データとモデリングの両方において偏りのない、これまでに作成された中で最も正確な機械学習システムを構築することが可能です。 確証バイアスは、何らかのアクションを起こす前に人間によるレビューが必要となる機械学習アプリケーションで特に多く見られます。医療業界での AI の使用により、医師がアルゴリズムによる診断を自分の経験や理解と一致しないという理由で却下するケースがすでに発生しています。多くの場合、多くの医師は最新の研究文献を読んでおらず、そこには自分の知識や経験とは異なる症状、技術、または診断結果が記載されている可能性があります。実際には、医師が読むジャーナルの数は限られていますが、機械学習システムはそれらすべてをインデックス化することができます。 (6)評価バイアスあるチームが、米国選挙の投票率を予測するための機械学習モデルを構築しており、年齢、職業、収入、政党所属などのさまざまな特徴を取り入れることで、誰かが投票するかどうかを正確に予測できると期待しているとします。そこで私たちはモデルを構築し、地方選挙キャンペーンを通じてそれをテストし、その結果に非常に満足しました。誰かが投票するかどうかを 95% の確率で正確に予測できるようです。 チームは、このモデルが米国の選挙運動に適用されたことに非常に失望した。設計とテストに長い時間がかかったモデルは、55% しか正しくなく、ランダムな推測よりもわずかに優れているだけだったからです。その結果が悪かったのは評価バイアスの一例です。地方選挙運動を通じてモデルを評価することで、意図せずしてその地域にしか機能しないシステムを設計してしまった。また、米国の他の地域の投票パターンはまったく異なり、初期のトレーニングデータに含まれていたとしても、完全には考慮されていませんでした。 結論はこれらは、バイアスが機械学習に影響を与える 6 つの異なる方法です。これは網羅的なリストではありませんが、機械学習システムが偏りを生じてしまう最も一般的な方法について、よく理解できるはずです。 |
>>: データ構造とアルゴリズムの比較 バックスペースを含む文字列!
世界のデジタル経済が急速に発展するにつれ、クラウド コンピューティングによってデータ転送速度に対する...
CoRL は 2017 年に初めて開催されて以来、ロボット工学と機械学習の交差点における世界トップ...
[51CTO.com クイック翻訳]ビジネスの世界では、デジタルトランスフォーメーションという言葉を...
人工知能、特に機械学習とディープラーニングは 2018 年にあらゆるところで話題になりましたが、今後...
[[337082]]最近、グラスゴー大学コンピューティング科学学部のデータサイエンス研究者であるアレ...
海外メディアCNETによると、米軍はビッグデータと人工知能を活用して近い将来の出来事を予測しようとし...
10月9日、近年、犯罪者が詐欺の手口を絶えず革新しており、金融消費者がそれを防ぐことが困難になってお...
カールしすぎ!中国が春節を祝っている間、2つの有名なAI研究機関であるDeepMindとOpenAI...
世界初の試験管ベビーは1978年に英国で誕生した。それ以来、人工生殖技術は継続的に改良されてきました...
現代の機械知能は自然を模倣することに基づいています。この分野の主な目標は、人間が生物学的に持つ強力な...
近年、GPT-2 を含む大規模言語モデルはテキスト生成において大きな成功を収めています。しかし、大規...
12月26日、専門家が実施した最近の調査では、ChatGPTが提供する提案は、人間の専門家が提供す...