モデルデータに偏りがある場合はどうすればいいですか?機械学習における 7 種類のデータバイアスについて 1 つの記事で学ぶ

モデルデータに偏りがある場合はどうすればいいですか?機械学習における 7 種類のデータバイアスについて 1 つの記事で学ぶ

機械学習におけるデータバイアスとは、データセットの一部の要素が他の要素よりも重み付けされ、または高く表現されるエラーです。偏ったデータセットはモデルの使用事例を正確に表さないため、結果が歪んだり、精度が低下したり、分析エラーが発生したりします。

通常、機械学習プロジェクトのトレーニング データは現実世界を代表するものでなければなりません。このデータはコンピューターが仕事のやり方を学習するための手段であるため、重要です。データのバイアスは、人間の報告や選択のバイアスからアルゴリズムや解釈のバイアスまで、さまざまな領域で発生する可能性があります。下の図は、データ収集と注釈付けの段階でのみ発生するバイアスの種類の良い例です。

機械学習プロジェクトでデータのバイアスに対処するには、まずデータのバイアスがどこに存在するかを特定する必要があります。偏りがどこに存在するかがわかって初めて、欠落データの問題に対処するか、注釈付けプロセスを改善するかなど、偏りを修正するために必要な手順を実行できるようになります。これを踏まえると、偏りをできるだけ避けるために、データの範囲、品質、処理に注意を払うことが重要です。これはモデルの精度に影響するだけでなく、倫理、公平性、包括性の問題にも影響を与える可能性があります。

この記事では、機械学習における最も一般的な 7 種類のデータ バイアスをリストし、バイアスが発生する場所とそれに対する対処方法を分析して理解できるようにします。

データバイアスの種類

このリストには、すべての種類のデータ バイアスが網羅されているわけではありませんが、一般的なデータ バイアスの例と、それが発生する場所が含まれています。

例のバイアス: 例のバイアスは、データセットがモデルが動作する環境の現実を反映していない場合に発生します。たとえば、一部の顔認識システムは主に白人男性を対象にトレーニングされているため、女性や異なる民族の人々に対するパターンの精度ははるかに低くなります。このバイアスの別名は選択バイアスです。

除外バイアス: 除外バイアスは、データの前処理段階で最もよく発生します。最も一般的なシナリオは、重要ではないと判断された貴重なデータを削除することです。さらに、特定の情報を除外すると、システムに偏りが生じる可能性があります。たとえば、北京と深センの顧客販売データセットがあるとします。当社の顧客の 98% は北京在住であるため、位置データは無関係として削除することにしました。しかし、これは、私たちのモデルが深センの顧客数が 3 倍になったことを検出できないことを意味します。

測定バイアス: このタイプのバイアスは、トレーニング用に収集されたデータが現実世界で収集されたデータと異なる場合、または測定エラーによってデータが歪む場合に発生します。このバイアスの良い例は、トレーニング データが 1 種類のカメラで取得され、実稼働データが別の種類のカメラで取得される画像認識データセットで発生します。一貫性のない注釈が原因で、プロジェクトのデータラベル付けフェーズで測定バイアスが発生する可能性もあります。

リコールバイアス: これも測定バイアスの一種であり、プロジェクトのデータラベル付けフェーズでよく見られます。リコールバイアスは、同じ種類のデータに一貫性のないラベルを付ける場合に発生し、精度が低下します。たとえば、チームが携帯電話の画像に「破損あり」、「一部破損あり」、「破損なし」のラベルを付けるとします。ある画像に破損のラベルを付け、類似の画像に部分的に破損のラベルを付けると、データに矛盾が生じます。

観察者バイアス: 確証バイアスとも呼ばれる観察者バイアスは、データに期待するものを見ることを指します。これは、研究者が研究についての主観的な考え(意識的か無意識的かにかかわらず)を持ってプロジェクトに参加する場合に発生する可能性があります。ラベラーが主観的な意見に基づいてラベリングの習慣を決めると、不正確なデータが生成されます。

人種的偏見: 従来の意味でのデータ偏見ではありませんが、この偏見は AI テクノロジーで最近人気が高まっているため、言及する価値があります。人種的偏見は、データが特定の人口統計に偏っている場合に発生します。顔認識や自動音声認識技術でもこのことが見られましたが、これらの技術では白人ほど正確に有色人種を識別できません。

関連付けバイアス: このバイアスは、機械学習モデルに文化的バイアスを強化または増幅するデータが入力されたときに発生します。データセットには、男性全員が医師で女性全員が看護師である職業セットが含まれている可能性があります。これは、女性が医者になれない、あるいは男性が看護師になれないという意味ではありません。しかし、機械学習モデルに関する限り、女性医師や男性看護師は存在しません。関連性バイアスは、マイニング AI 研究で見られるジェンダーバイアスを生み出すことで最もよく知られています。

機械学習プロジェクトでデータの偏りを回避するにはどうすればよいでしょうか?

機械学習プロジェクトにおけるデータの偏りを防ぐことは継続的なプロセスです。データやモデルに偏りがあるかどうかを知るのは難しい場合もありますが、偏りを防止したり早期に検出したりするために実行できる手順は数多くあります。機械学習プロジェクトでデータのバイアスに対処するための一般的な方法は次のとおりです。

  • 事前にユーザーを調査するためにあらゆる努力をします。一般的な使用例と潜在的な外れ値に注意してください。
  • データ サイエンティストとデータ ラベリング チームの多様性を確保します。
  • 可能な場合は、複数のソースからの入力を組み合わせて、データの多様性を確保します。
  • データラベリングのゴールドスタンダードを作成します。ゴールド スタンダードは、タスクの理想的なラベル付きデータを反映するデータのセットであり、これにより、チームの注釈の精度を測定できます。
  • すべてのデータ ラベラーの期待が一致するように、データ ラベリングの期待に関する明確なガイドラインを確立します。
  • データの精度に偏差が生じやすいすべてのプロジェクトでは、必ずマルチチャネル注釈を使用してください。例としては、感情分析、コンテンツ モデレーション、意図の識別などが挙げられます。
  • ドメインの専門知識を持つ人の支援を得て、収集および/または注釈付けしたデータを確認します。チーム外の人の方が、チームが見落としていた逸脱に気づく可能性が高くなります。
  • データを定期的に分析します。バグや問題領域は追跡されるため、迅速に対応して解決できます。データ ポイントを削除するか保持するかを決定する前に、データ ポイントを慎重に分析してください。
  • 逸脱テストを開発サイクルの一部にします。 Google、IBM、Microsoft はいずれも、さまざまなデータ タイプに対するバイアスの分析に役立つツールとガイダンスをリリースしています。

要約する

あらゆるデータ プロジェクトにおいて、機械学習の潜在的なバイアスを認識することが非常に重要です。適切なシステムを早期に導入し、データの収集、ラベル付け、フルフィルメントを管理することで、問題が発生する前、または発生したときに対応し、コストを削減し、モデルの精度を向上させることができます。

<<:  機械学習の博士号を取得するためにゼロから 12 年間勉強する価値はあるでしょうか?

>>:  機械学習に必要な5つのスキル

推薦する

高度な自動運転システムの開発において解決すべき課題についてお話しします

次世代のインテリジェントコネクテッドカーには、高度な自動運転システムが必須です。車両が自動運転をいか...

...

...

誰もが映画の「監督」! MSRA、北京大学、その他の大学が提案:ビデオ、映画、短編ビデオ生成モデル

Stable DiffusionとMidjourneyの人気以来、人々は画像生成の分野における人工知...

...

知識抽出についてお話ししましょう。学びましたか?

1. はじめに知識抽出とは通常、豊富な意味情報を持つタグやフレーズなどの非構造化テキストから構造化...

アルファベットのウィングがドローン配達サービスをダラス・フォートワース地域に導入

ドローンはまもなく、タイレノールとバンドエイドが詰まった小型容器を積んでダラス・フォートワース上空を...

AIがクラウドコンピューティングを再定義し、ビジネス効率を向上させる方法

長年にわたり、クラウド コンピューティングは現代のビジネスに欠かせないツールとなり、2020 年には...

マスク氏に敵対的買収の疑い!ツイッター株を受け取ったが取締役会には参加せず、訴訟を起こされている

これはすべて悪意のある計画ですか? ツイッター株を7000万株以上購入した後、マスク氏は取締役会への...

すべてのAI公開コースが無料でご利用いただけます! 14 のカテゴリ、230 のコース、6,000 以上の GitHub スター

十分に読書をして直感を養い、直感を信じて挑戦してみましょう。たくさんの読書を通して直感を養い、自分の...

GPT-3 の推論高速化は NVIDIA のソリューションを 50% 上回ります。大規模モデル推論システムEnergon-AIオープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

トランスフォーマーベースの効率的で低遅延のストリーミング音声認識モデル

シナリオの観点から、音声認識はストリーミング音声認識と非ストリーミング音声認識に分けられます。非スト...

「顔を見る」時代において、顔認識は「マーケティング」の共犯者にはなり得ない

315ガラはカメラの顔認識の悪用の問題を暴露し、懸念を引き起こした。これはまた、問題を浮き彫りにする...

...