知っておくべき6つのAIバイアス

知っておくべき6つのAIバイアス

[[441742]]

子どもは成長するにつれて、聴覚、視覚、触覚などの感覚を通して周囲の世界について学びます。子どもが世界を理解する方法、子どもが形成する意見、そして最終的に下す決断はすべて、子どもが育った環境によって影響を受けます。たとえば、性差別的なコミュニティで生活し、育った子どもは、異なる性別に対する見方に偏見があることに気付かないかもしれません。

機械学習モデルでも同様です。彼らは感覚を使って知覚するのではなく、人間が提供するデータを使って学習します。このため、機械学習モデルのトレーニングに使用するデータは、可能な限り偏りのないものにすることが重要です。以下では、機械学習における最も一般的なバイアスのいくつかについて説明します。

(1)歴史的偏見

機械学習アルゴリズムをトレーニングするためのデータを収集する場合、多くの場合、履歴データを取得するのが最も簡単な開始点となります。ただし、注意しないと、履歴データに存在するバイアスが簡単に含まれてしまいます。

Amazonを例に挙げてみましょう。同社は2014年に求職者を自動的に審査するシステムの構築に着手した。アイデアは、システムに何百もの履歴書を入力し、最適な候補者を自動的に選び出すことです。このシステムは、同社の過去 10 年間の求人応募と入学結果に基づいてトレーニングされました。では、何が問題なのでしょうか? それは、Amazon の従業員 (特に技術職) の大半が男性だからです。 AIアルゴリズムは、アマゾンには女性従業員よりも男性従業員の方が多いため、男性の方が適した候補者であると学習し、そのため女性の求職者を差別した。 2015年までに、偏見によりプロジェクトは中止されなければなりませんでした。

(2)サンプルバイアス

サンプル バイアスは、トレーニング データがモデルの実際の使用方法を正確に反映していない場合に発生します。多くの場合、1 つのグループが過剰に代表されたり、過少に代表されたりします。

たとえば、音声からテキストへの変換をトレーニングする米国のプロジェクトでは、大量のオーディオ クリップとそれに対応する文字起こしが必要でした。オーディオブックは大量のデータを取得することになりますが、このアプローチの問題点は何でしょうか?

オーディオブックの大半は、高学歴の白人男性によってナレーションされていることが判明しました。当然のことながら、このアプローチを使用してトレーニングされた音声認識ソフトウェアは、ユーザーが異なる社会経済的背景や人種的背景を持つ場合、パフォーマンスが低下しました。

(3)ラベリングバイアス

機械学習アルゴリズムをトレーニングするために必要な膨大な量のデータは、有用であるためにはラベル付けされる必要があります。ユーザーが Web サイトにログオンする場合、多くの場合は自分でログオンします。たとえば、信号機がある四角形を識別するように要求するとします。実際には、視覚認識モデルのトレーニングに役立つように、その画像のラベルのセットを確認していることになります。ただし、データにラベルを付ける方法は多種多様であり、ラベル付けに一貫性がないとシステムに偏りが生じる可能性があります。

(4)集計バイアス

データを集約して簡素化したり、特定の方法で提示したりすることがあります。これにより、モデルが作成される前と後の両方でバイアスが生じる可能性があります。たとえば、次のグラフ:

働く時間が長くなるにつれて、人々の給料がどれだけ増加するかを示しています。非常に強い相関関係があり、長く働けば働くほど、より多くの給料を受け取ることができます。次の画像は、この集計を作成するために使用されたデータの概要を示しています。

(5)確証バイアス

簡単に言えば、確証バイアスとは、人々が自分の既存の信念を裏付ける情報を信じたり、自分の既存の信念に合わない情報を捨てたりする傾向のことです。理論的には、データとモデリングの両方において偏りのない、これまでに作成された中で最も正確な機械学習システムを構築することが可能です。

確証バイアスは、何らかのアクションを起こす前に人間によるレビューが必要となる機械学習アプリケーションで特に多く見られます。医療業界での AI の使用により、医師がアルゴリズムによる診断を自分の経験や理解と一致しないという理由で却下するケースがすでに発生しています。多くの場合、多くの医師は最新の研究文献を読んでおらず、そこには自分の知識や経験とは異なる症状、技術、または診断結果が記載されている可能性があります。実際には、医師が読むジャーナルの数は限られていますが、機械学習システムはそれらすべてをインデックス化することができます。

(6)評価バイアス

あるチームが、米国選挙の投票率を予測するための機械学習モデルを構築しており、年齢、職業、収入、政党所属などのさまざまな特徴を取り入れることで、誰かが投票するかどうかを正確に予測できると期待しているとします。そこで私たちはモデルを構築し、地方選挙キャンペーンを通じてそれをテストし、その結果に非常に満足しました。誰かが投票するかどうかを 95% の確率で正確に予測できるようです。

チームは、このモデルが米国の選挙運動に適用されたことに非常に失望した。設計とテストに長い時間がかかったモデルは、55% しか正しくなく、ランダムな推測よりもわずかに優れているだけだったからです。その結果が悪かったのは評価バイアスの一例です。地方選挙運動を通じてモデルを評価することで、意図せずしてその地域にしか機能しないシステムを設計してしまった。また、米国の他の地域の投票パターンはまったく異なり、初期のトレーニングデータに含まれていたとしても、完全には考慮されていませんでした。

結論は

これらは、バイアスが機械学習に影響を与える 6 つの異なる方法です。これは網羅的なリストではありませんが、機械学習システムが偏りを生じてしまう最も一般的な方法について、よく理解できるはずです。

<<:  データ構造とアルゴリズム: 文字列の分割とバランス

>>:  データ構造とアルゴリズムの比較 バックスペースを含む文字列!

推薦する

市場動向 | 人工知能が光接続の需要を急増させる

世界のデジタル経済が急速に発展するにつれ、クラウド コンピューティングによってデータ転送速度に対する...

中国チームが最優秀論文賞と最優秀システム論文賞を受賞し、CoRLの受賞論文が発表されました。

CoRL は 2017 年に初めて開催されて以来、ロボット工学と機械学習の交差点における世界トップ...

...

ITとビジネスの調和を実現する: デジタル変革にローコードが不可欠な理由

[51CTO.com クイック翻訳]ビジネスの世界では、デジタルトランスフォーメーションという言葉を...

AIの今後の4つの動向、人類は集団的に失業するのか?

人工知能、特に機械学習とディープラーニングは 2018 年にあらゆるところで話題になりましたが、今後...

AIが光子の時間を3D画像に変換し、時間の経過による世界を視覚化する

[[337082]]最近、グラスゴー大学コンピューティング科学学部のデータサイエンス研究者であるアレ...

国防総省は、今後数日間の出来事を予測するために人工知能を活用している。

海外メディアCNETによると、米軍はビッグデータと人工知能を活用して近い将来の出来事を予測しようとし...

金融規制当局が注意喚起:「AIによる顔の改変」などの新たな詐欺手法に注意

10月9日、近年、犯罪者が詐欺の手口を絶えず革新しており、金融消費者がそれを防ぐことが困難になってお...

DeepMindは、一般のプログラマーに匹敵するAlphaCodeをリリースしました。同日、OpenAIが数学オリンピックで優勝しました。

カールしすぎ!中国が春節を祝っている間、2つの有名なAI研究機関であるDeepMindとOpenAI...

不妊治療の新たな夜明け:AI

世界初の試験管ベビーは1978年に英国で誕生した。それ以来、人工生殖技術は継続的に改良されてきました...

Google と OpenAI の新しい研究: ダーウィンの進化論を人工知能アルゴリズムの設計にどのように活用するか?

現代の機械知能は自然を模倣することに基づいています。この分野の主な目標は、人間が生物学的に持つ強力な...

...

スタンフォード大学が長いテキストをよりスムーズに生成する時間制御方式を導入、その論文がICLR 2022に選出される

近年、GPT-2 を含む大規模言語モデルはテキスト生成において大きな成功を収めています。しかし、大規...

調査によると、ChatGPTが提供するアドバイスは専門家が提供するアドバイスよりも包括的で役立つことがわかっています。

12月26日、専門家が実施した最近の調査では、ChatGPTが提供する提案は、人間の専門家が提供す...

...