モデルデータに偏りがある場合はどうすればいいですか?機械学習における 7 種類のデータバイアスについて 1 つの記事で学ぶ

モデルデータに偏りがある場合はどうすればいいですか?機械学習における 7 種類のデータバイアスについて 1 つの記事で学ぶ

機械学習におけるデータバイアスとは、データセットの一部の要素が他の要素よりも重み付けされ、または高く表現されるエラーです。偏ったデータセットはモデルの使用事例を正確に表さないため、結果が歪んだり、精度が低下したり、分析エラーが発生したりします。

通常、機械学習プロジェクトのトレーニング データは現実世界を代表するものでなければなりません。このデータはコンピューターが仕事のやり方を学習するための手段であるため、重要です。データのバイアスは、人間の報告や選択のバイアスからアルゴリズムや解釈のバイアスまで、さまざまな領域で発生する可能性があります。下の図は、データ収集と注釈付けの段階でのみ発生するバイアスの種類の良い例です。

機械学習プロジェクトでデータのバイアスに対処するには、まずデータのバイアスがどこに存在するかを特定する必要があります。偏りがどこに存在するかがわかって初めて、欠落データの問題に対処するか、注釈付けプロセスを改善するかなど、偏りを修正するために必要な手順を実行できるようになります。これを踏まえると、偏りをできるだけ避けるために、データの範囲、品質、処理に注意を払うことが重要です。これはモデルの精度に影響するだけでなく、倫理、公平性、包括性の問題にも影響を与える可能性があります。

この記事では、機械学習における最も一般的な 7 種類のデータ バイアスをリストし、バイアスが発生する場所とそれに対する対処方法を分析して理解できるようにします。

データバイアスの種類

このリストには、すべての種類のデータ バイアスが網羅されているわけではありませんが、一般的なデータ バイアスの例と、それが発生する場所が含まれています。

例のバイアス: 例のバイアスは、データセットがモデルが動作する環境の現実を反映していない場合に発生します。たとえば、一部の顔認識システムは主に白人男性を対象にトレーニングされているため、女性や異なる民族の人々に対するパターンの精度ははるかに低くなります。このバイアスの別名は選択バイアスです。

除外バイアス: 除外バイアスは、データの前処理段階で最もよく発生します。最も一般的なシナリオは、重要ではないと判断された貴重なデータを削除することです。さらに、特定の情報を除外すると、システムに偏りが生じる可能性があります。たとえば、北京と深センの顧客販売データセットがあるとします。当社の顧客の 98% は北京在住であるため、位置データは無関係として削除することにしました。しかし、これは、私たちのモデルが深センの顧客数が 3 倍になったことを検出できないことを意味します。

測定バイアス: このタイプのバイアスは、トレーニング用に収集されたデータが現実世界で収集されたデータと異なる場合、または測定エラーによってデータが歪む場合に発生します。このバイアスの良い例は、トレーニング データが 1 種類のカメラで取得され、実稼働データが別の種類のカメラで取得される画像認識データセットで発生します。一貫性のない注釈が原因で、プロジェクトのデータラベル付けフェーズで測定バイアスが発生する可能性もあります。

リコールバイアス: これも測定バイアスの一種であり、プロジェクトのデータラベル付けフェーズでよく見られます。リコールバイアスは、同じ種類のデータに一貫性のないラベルを付ける場合に発生し、精度が低下します。たとえば、チームが携帯電話の画像に「破損あり」、「一部破損あり」、「破損なし」のラベルを付けるとします。ある画像に破損のラベルを付け、類似の画像に部分的に破損のラベルを付けると、データに矛盾が生じます。

観察者バイアス: 確証バイアスとも呼ばれる観察者バイアスは、データに期待するものを見ることを指します。これは、研究者が研究についての主観的な考え(意識的か無意識的かにかかわらず)を持ってプロジェクトに参加する場合に発生する可能性があります。ラベラーが主観的な意見に基づいてラベリングの習慣を決めると、不正確なデータが生成されます。

人種的偏見: 従来の意味でのデータ偏見ではありませんが、この偏見は AI テクノロジーで最近人気が高まっているため、言及する価値があります。人種的偏見は、データが特定の人口統計に偏っている場合に発生します。顔認識や自動音声認識技術でもこのことが見られましたが、これらの技術では白人ほど正確に有色人種を識別できません。

関連付けバイアス: このバイアスは、機械学習モデルに文化的バイアスを強化または増幅するデータが入力されたときに発生します。データセットには、男性全員が医師で女性全員が看護師である職業セットが含まれている可能性があります。これは、女性が医者になれない、あるいは男性が看護師になれないという意味ではありません。しかし、機械学習モデルに関する限り、女性医師や男性看護師は存在しません。関連性バイアスは、マイニング AI 研究で見られるジェンダーバイアスを生み出すことで最もよく知られています。

機械学習プロジェクトでデータの偏りを回避するにはどうすればよいでしょうか?

機械学習プロジェクトにおけるデータの偏りを防ぐことは継続的なプロセスです。データやモデルに偏りがあるかどうかを知るのは難しい場合もありますが、偏りを防止したり早期に検出したりするために実行できる手順は数多くあります。機械学習プロジェクトでデータのバイアスに対処するための一般的な方法は次のとおりです。

  • 事前にユーザーを調査するためにあらゆる努力をします。一般的な使用例と潜在的な外れ値に注意してください。
  • データ サイエンティストとデータ ラベリング チームの多様性を確保します。
  • 可能な場合は、複数のソースからの入力を組み合わせて、データの多様性を確保します。
  • データラベリングのゴールドスタンダードを作成します。ゴールド スタンダードは、タスクの理想的なラベル付きデータを反映するデータのセットであり、これにより、チームの注釈の精度を測定できます。
  • すべてのデータ ラベラーの期待が一致するように、データ ラベリングの期待に関する明確なガイドラインを確立します。
  • データの精度に偏差が生じやすいすべてのプロジェクトでは、必ずマルチチャネル注釈を使用してください。例としては、感情分析、コンテンツ モデレーション、意図の識別などが挙げられます。
  • ドメインの専門知識を持つ人の支援を得て、収集および/または注釈付けしたデータを確認します。チーム外の人の方が、チームが見落としていた逸脱に気づく可能性が高くなります。
  • データを定期的に分析します。バグや問題領域は追跡されるため、迅速に対応して解決できます。データ ポイントを削除するか保持するかを決定する前に、データ ポイントを慎重に分析してください。
  • 逸脱テストを開発サイクルの一部にします。 Google、IBM、Microsoft はいずれも、さまざまなデータ タイプに対するバイアスの分析に役立つツールとガイダンスをリリースしています。

要約する

あらゆるデータ プロジェクトにおいて、機械学習の潜在的なバイアスを認識することが非常に重要です。適切なシステムを早期に導入し、データの収集、ラベル付け、フルフィルメントを管理することで、問題が発生する前、または発生したときに対応し、コストを削減し、モデルの精度を向上させることができます。

<<:  機械学習の博士号を取得するためにゼロから 12 年間勉強する価値はあるでしょうか?

>>:  機械学習に必要な5つのスキル

ブログ    
ブログ    

推薦する

3つ目!マイクロソフト、米警察への顔認識技術の提供を拒否

近年、人工知能の台頭の勢いに乗って生体認証技術が急速に発展し、顔認識に代表される一連のサブセクターが...

...

キャッシュ、キャッシュ アルゴリズム、キャッシュ フレームワークの概要

導入私たちは皆、キャッシュについて聞いたことがあります。キャッシュとは何かと尋ねると、完璧な答えが返...

GPT時代の学習アルゴリズム、線形モデルを実装するPytorchフレームワーク

今日は線形回帰モデルの実装を続けます。ただし、今回はすべての関数を自分で実装するのではなく、Pyto...

アート業界におけるメタバースの探究

メタバースの概念がますます普及するにつれて、さまざまな業界がこの豊かな土地を探索し始めました。多くの...

...

インダストリー4.0におけるインテリジェントロボットの影響

インダストリー 4.0 でスマート ロボットを活用すると、企業は自動化、柔軟性、効率性、安全性の向上...

ヒューマノイドロボットはマジックを披露することができます。春節祭のスタッフにその詳細をお伝えします。

一瞬のうちに、ロボットは魔法を使うことを覚えたのでしょうか?まず、テーブルの上の水のスプーンを手に取...

平均して、1 秒で 1 つの高得点大学入試エッセイが生成されます。PaddlePaddle Wenxin モデルはどのようにしてこれを実現するのでしょうか?

全国的な大学入試が進行中で、百度のAI技術も「大学入試」に直面している。 6月7日、大学入試の中国語...

...

3つの大きな弱点がAIスタートアップへの扉を閉ざしている

先月、投資会社a16zがAIスタートアップが直面する困難を分析した記事を発表しました。AIスタートア...

自動運転の研究の方向性は間違っているのか?

1 知覚ソリューション: 純粋な視覚とマルチセンサー融合自動車が自動運転を実現するには、まず周囲を...

AI時代に向けてキャリアを再設計する時が来た

Pew Researchの分析によると、AI、特にAIGCの台頭は管理職や専門職に大きな影響を与える...

...

人工知能の商業化における問題点をどう解決するか?

「2018年中国人工知能商業上陸研究報告」によると、過去1年間、業界は人工知能に大きな期待を寄せ、...