合成データ生成器はAIのバイアス問題を解決できるかもしれない

合成データ生成器はAIのバイアス問題を解決できるかもしれない

AI の偏見は、個人にさまざまな影響を及ぼす可能性がある深刻な問題です。

人工知能が進歩するにつれて、データ サイエンス ソリューションを取り巻く疑問や倫理的なジレンマが表面化し始めます。人間は意思決定プロセスから自らを排除しているため、これらのアルゴリズムによる判断が偏見や差別のないことを保証したいと考えています。人工知能は常に監視されなければなりません。 AI は大量のデータを処理する予測分析に基づくデジタル システムであるため、この可能性のあるバイアスが AI によって引き起こされたとは言えません。問題は、システムに「入力」される監視されていないデータから始まります。

歴史を通じて、人類は偏見や差別を受けてきました。私たちの行動はすぐには変わらないようです。システムやアルゴリズムにも偏見が見つかっているが、人間とは異なり、それらのシステムやアルゴリズムはこの問題の影響を受けないようだ。

AIバイアスとは何ですか?

AI バイアスは、データの取得方法によって、関心グループを正しく表さないサンプルが生成された場合、データ関連の領域で発生します。これは、特定の人種、信条、肌の色、性別の人々がデータ サンプル内で過小評価されていることを示唆しています。これにより、システムが差別的な結論を下す可能性があります。また、データ サイエンス コンサルティングとは何か、その重要性についても疑問が生じます。

AI におけるバイアスとは、AI システムが意図的に特定の人々のグループを優遇するように作成されていることを意味するものではありません。 AI の目標は、個人が指示ではなく例を通じて自分の欲求を表現できるようにすることです。したがって、AI に偏りがあるとすれば、それはデータに偏りがあるためにしかあり得ません。AI による意思決定は現実世界で機能する理想的なプロセスであり、人間の欠陥を隠すことはできません。ガイド付き学習と組み合わせることも有益です。

なぜそうなるのでしょうか?

AI バイアスの問題は、データに、優れたアルゴリズムの結論を支持する先入観に基づく人間の選択が含まれる可能性があるために発生します。 AI における偏見の実際の例がいくつかあります。人種差別的な動機を持つ人々や有名なドラッグクイーンが、Google のヘイトスピーチ検出システムによって差別された。 10年間にわたり、アマゾンの人事アルゴリズムには主に男性従業員のデータが入力されており、その結果、女性候補者がアマゾンの職務に適格であると評価される可能性が高くなっていた。

MITのデータ科学者によると、顔認識アルゴリズムは少数民族、特に少数民族の女性の顔を分析する際に間違いを起こしやすいという。これは、トレーニング中にアルゴリズムに主に白人男性の顔が入力したためである可能性があります。

アマゾンのアルゴリズムは、米国のプライム会員1億1,200万人のデータと、同サイトを頻繁に利用し他の商品を頻繁に利用する数千万人の個人のデータに基づいてトレーニングされているため、同社は消費者の購買行動を予測できる。 Google の広告事業は、同社が毎日行う何十億ものインターネット検索と、市場に出回っている 25 億台の Android スマートフォンから得たデータを基にした予測アルゴリズムに基づいています。これらのインターネット大手は、大規模なデータ独占を確立しており、人工知能においてほぼ克服できないほどの優位性を持っています。

合成データは AI のバイアスに対処するのにどのように役立ちますか?

理想的な社会では、誰も偏見を持たず、肌の色、性別、宗教、性的指向に関係なく、誰もが平等な機会を持ちます。しかし、現実の世界では、特定の分野で大多数と異なる人々は仕事を見つけたり教育を受けたりすることが困難であり、多くの統計では彼らが過小評価される原因となっています。 AI システムの目的によっては、このような人々はスキルが低く、これらのデータセットに含まれる可能性が低く、良いスコアを得るのにあまり適していないという誤った推論につながる可能性があります。

一方、AI データは、偏りのない AI に向けた大きな一歩となる可能性があります。考慮すべきいくつかの概念を以下に示します。

実際のデータを見て、どこに偏差があるかを確認します。次に、現実世界のデータと観察可能なバイアスを使用して、合成データが生成されます。理想的な仮想データ ジェネレーターを作成したい場合は、偏ったデータを公平であると見なされるデータに変換しようとする公平性の定義を含める必要があります。

AI によって生成されたデータは、データセット内のバリエーションがほとんどないか不十分なギャップを埋め、偏りのないデータセットを形成する可能性があります。サンプルサイズが大きい場合でも、一部の個人が除外されたり、他の人に比べて代表性が低かったりする可能性があります。この問題は合成データを使用して解決する必要があります。

データマイニングは、偏りのないデータを生成するよりもコストがかかる場合があります。実際のデータ収集には、測定、インタビュー、大規模なサンプル、そしていずれにしても多大な労力が必要です。 AI によって生成されるデータは安価であり、データ サイエンスと機械学習アルゴリズムの使用のみが必要です。

シンシアの創業者であるマイター社をはじめ、多くの営利目的の合成データ企業の幹部は、ここ数年で自社のサービスへの関心が高まっていることに気づいている。しかし、アルゴリズムが人生を変えるような決定を下すために広く使用されるようになると、顔認識、犯罪予測、医療の意思決定など、影響の大きい分野で人種差別、性差別、その他の有害な偏見を悪化させることが判明しました。研究者らは、アルゴリズムを訓練するためにアルゴリズムで生成されたデータを使用すると、多くの場合、AI システムが有害な偏見を永続させる可能性が高くなると述べています。

<<:  世界的なIT大手はAIを活用してデータセンターのエネルギー節約と排出量削減に取り組んでいる

>>:  AIの未来: 汎用人工知能

ブログ    
ブログ    
ブログ    

推薦する

...

Python で自然言語処理を始める

このチュートリアルの目的は、自然言語処理 (NLP) の概念を通じて Python でテキスト デー...

トヨタ・リサーチ・インスティテュート、AIを活用した自動車設計ツールを発表

トヨタ・リサーチ・インスティテュートは、この新しい革新的な生成AIツールにより、デザイナーは効率的か...

機械学習の12の経験則

機械学習アルゴリズムは、例から一般化することで重要なタスクを実行する方法を理解できます。これを手動プ...

小中学生の安全を守るためにロボットは今や欠かせない存在です!

安全性について話すと、誰もが必ずそれに共感します。時代の急速な発展に伴い、人々の個人的な安全がますま...

人工知能は人間と議論できる:冒頭の発言は素晴らしかったが、それでもプロの討論者に負けた

最近、学術誌「ネイチャー」に掲載された研究では、人間と競争的な議論に参加できる自律エージェントについ...

マイクロソフトの深夜革命、GPT-4 Office フルパッケージが登場!月30ドルで10億人の労働者の雇用が奪われる?

6 か月の遅延の後、Microsoft Copilot ファミリー全体がついに登場しました。ちょう...

パフォーマンスは 5000 個の H100 でトレーニングされた GPT-4 に近いです。 DeepMindが新世代の大規模モデルを共同開発

最近、InflectionAI は新しい AI モデルをリリースしました。さらに衝撃的なのは、Inf...

拡散モデルを使用してビデオを生成することもでき、その結果は非常に印象的です。新しいSOTAが達成されました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

今年の英語大学入試では、CMUは再構成事前トレーニングを利用してGPT3をはるかに上回る134点という高得点を獲得した。

データの保存方法は、生物学的ニューラル ネットワークから人工ニューラル ネットワークへと変化しており...

あなたの周りにある、機械学習の一般的な使用例トップ 7!

想像してみてください。あなたはずっと夢見てきた機械学習の職種の面接を受けに行こうとしています。すべて...

医療画像のインテリジェント認識:医療とAIを組み合わせた成功事例

医療画像のインテリジェント認識:医療とAIを組み合わせた成功事例医療画像認識はAIがすぐに導入できる...

...

...