AIと機械学習における暗黙のアルゴリズムバイアス

AIと機械学習における暗黙のアルゴリズムバイアス

[[226077]]

オープンソースコミュニティを通じて何ができるでしょうか?

アルゴリズムは私たちの世界のいたるところに存在し、偏見も同様です。ソーシャルメディアでのニュース配信からストリーミングサービスの推奨、オンラインショッピングまで、コンピューターアルゴリズム、特に機械学習アルゴリズムは私たちの日常生活のあらゆる側面に浸透しています。偏見に関しては、2016 年の米国選挙を見れば、偏見が私たちの社会に公然と、また秘密裏にどのような影響を与えているかがわかります。

想像しにくいことですが、私たちがしばしば見落としがちなのが、この 2 つの交差点、つまりコンピューター アルゴリズムのバイアスです。

私たちのほとんどが信じていることとは反対に、テクノロジーは客観的なものではありません。 AI アルゴリズムとその意思決定プロセスは、開発者によって形成されます。開発者が記述するコード、使用する「トレーニング」データ、アルゴリズムのストレステストのプロセスはすべて、開発者が将来行う選択に影響を与えます。これは、開発者の価値観、偏見、人間的な欠陥がソフトウェアに反映されることを意味します。研究室の顔認識アルゴリズムに白人の写真だけを入力すると、白人以外の人の写真に遭遇したときに、その写真の人物が人間であるとは認識されなくなります。この結論は、AI が「愚か」または「ナイーブ」であることを意味するのではなく、トレーニング データの分布が偏っていること、つまり多様な顔写真が不足していることを示しているだけです。これは非常に深刻な結果をもたらすでしょう。

そういった例はたくさんあります。米国全土の州裁判所は犯罪者への判決を下すために「ブラックボックス」を使用している。トレーニングデータの問題により、これらのアルゴリズムは黒人に対して偏見を持っており、黒人犯罪者に対してより長い刑期を選択するため、刑務所における人種間の格差は存続することになる。そして、これらすべては科学的客観性、つまり「科学的」選択という名目で行われているのです。

米国連邦政府は、機械学習アルゴリズムを使用して福祉支出とさまざまな政府補助金を計算します。しかし、これらのアルゴリズムの作成者やトレーニング情報などの情報を見つけるのは困難です。これにより、政府職員が不平等な補助金分配慣行に従事する可能性が高まります。

アルゴリズムによる偏りの事例は他にもたくさんあります。 Facebook のニュース アルゴリズムから医療システム、警察のボディ カメラまで、私たち社会は、あらゆる種類の偏見、性差別、外国人嫌悪、社会経済的地位の差別、確証バイアスなどをこれらのアルゴリズムに入力する可能性が非常に高いです。これらの偏った機械は大量生産され、流通され、あらゆる種類の社会的偏見を科学的、技術的客観性のベールの下に隠すことになる。

この状況は継続してはならない。

人工知能の開発と研究を継続するにあたり、その開発速度を緩め、慎重に開発していく必要があります。アルゴリズムによる偏見の危険性はすでに十分に大きい。

アルゴリズムの偏りを減らすにはどうすればよいでしょうか?

最良の方法は、アルゴリズムがトレーニングされたデータから始めることであり、Microsoft の研究者によると、このアプローチはうまく機能するそうです。

データの分布自体に偏りがあります。プログラマーの手元にあるアメリカ国民のデータは、移民よりも現地住民のデータが多く、貧困層よりも富裕層に関するデータが多く、不均等に分配されている可能性が非常に高い。この不均一なデータにより、AI は私たちが社会としてどのような存在であるかについて誤った結論を導き出す可能性があります。たとえば、機械学習アルゴリズムは、統計分析のみで「アメリカ人のほとんどは裕福な白人である」と結論付けることができます。

トレーニング データ内で男性と女性のサンプルが均等に分散されている場合でも、偏った結果が発生する可能性があります。トレーニングデータ内の男性全員が CEO で、女性全員が秘書である場合 (実際には男性 CEO の方が女性 CEO より多いにもかかわらず)、AI は女性は本来 CEO に向いていないと結論付ける可能性があります。

同様に、法執行機関で使用される AI は、ニュースに登場する犯罪者の写真を検出する際に、黒人やラテン系の住民に対して大きな偏見を持つ可能性があることが、多数の研究で示されています。

トレーニング データのバイアスには、ここで説明したもの以外にもさまざまな形があります。しかし、トレーニング データは審査の 1 つの形式にすぎません。「ストレス テスト」を通じて人間の偏見を特定することも同様に重要です。

もしインド人の写真を渡されたら、私たち自身のカメラでそれを識別できるでしょうか?同じレベルの応募者 2 人のうち、当社の AI は都市部に住んでいる応募者を推薦する傾向がありますか?対テロアルゴリズムは、諜報機関内の地元の白人テロリストとイラクのテロリストをどのように選択するのでしょうか?救急治療室のカメラは子供の医療記録を閲覧できますか?

これらは AI が理解するには複雑な数値ですが、複数のテストを通じて定義し、伝達することができます。

なぜオープンソースはこのタスクに適しているのでしょうか?

オープンソース メソッドとオープンソース テクノロジーはどちらも、アルゴリズムのバイアスを変える大きな可能性を秘めています。

現代の人工知能は、TensorFlow、IBM Watson、scikit-learn などのオープンソース ソフトウェアによって支配されてきました。オープンソース コミュニティは、厳格なテストに耐える堅牢な機械学習ツールを開発できることを実証しました。同様に、オープンソース コミュニティは偏見のないテスト手順を開発し、それをこれらのソフトウェアに適用できると信じています。

コロンビア大学やリーハイ大学の DeepXplore などのデバッグ ツールは、AI ストレス テストの堅牢性を高めるとともに、管理しやすくします。 MIT のコンピュータサイエンスおよび人工知能研究所でも、オープンソース コミュニティに採用されるべきアジャイルで迅速なプロトタイピングの研究ソフトウェアを開発するプロジェクトが進行中です。

オープンソーステクノロジーは、大量のデータをレビューおよび分類する能力も実証しています。これは、データ分析におけるオープンソース ツール (Weka、Rapid Miner など) の市場シェアに最も顕著に表れています。オープンソース コミュニティはデータの偏りを識別するツールを設計する必要があり、Kaggle などのオンラインで公開されている大規模なトレーニング データ セットでも、このテクノロジを使用して識別およびスクリーニングを行う必要があります。

オープンソースのアプローチは、反偏見プログラムの設計に適しています。社内会話、非公開のソフトウェア開発、非民主的な意思決定は多くの問題を引き起こします。オープンソース コミュニティは、ソフトウェアに関するオープンな会話を交わし、ソフトウェアを普及させ、一般の人々と良好な関係を維持することができ、これは上記の問題に対処する上で非常に重要です。オンライン コミュニティ、組織、機関がこれらのオープン ソースの特性を受け入れることができれば、オープン ソース コミュニティはアルゴリズムの偏りをよりスムーズに排除するマシンを設計できるようになります。

どうすれば参加できますか?

教育は非常に重要なつながりです。私たちの周りには、アルゴリズムによる偏見にまだ気づいていない人がたくさんいますが、法律、社会正義、政策などへの影響は彼らにも深く関係しています。アルゴリズムによる偏見がどのように形成され、それがどのような重大な影響を及ぼすのかをこれらの人々に知ってもらうことが重要です。なぜなら、現状を変える唯一の方法は、私たち自身から始めることだからです。

このコミュニケーションは、AI と一緒に働く私たちにとって特に重要です。人工知能の開発者であれ、警察であれ、科学研究者であれ、将来の人工知能を設計する際には、今日存在するこの種の偏見の危険性を特に意識する必要があります。明らかに、人工知能の偏見を排除したいのであれば、偏見の存在を認識することから始めなければなりません。

***、倫理的な AI を中心にオープンソース コミュニティを構築し、強化する必要があります。ストレステストのトレーニング モデルやソフトウェア ツールの構築、あるいはギガバイト単位のトレーニング データの精査など、デジタル時代の最も差し迫った脅威に対抗するには、オープン ソース アプローチを活用する必要があります。

<<:  [ディープラーニングシリーズ] PaddlePaddle と Tensorflow を使用したクラシック CNN ネットワーク Vgg の実装

>>:  デザイナーが危険にさらされています! AI広告デザイン分野におけるSuningの探求と実践

ブログ    
ブログ    
ブログ    

推薦する

本当に滑らか: 浙江大学、ETH チューリッヒ、CityU が共同で開発した 3D ヘア モデリングの新しい手法、NeuralHDHair

近年、バーチャルデジタルヒューマン業界は大変人気が高まっており、あらゆる分野の人々が独自のデジタルヒ...

...

NLP がヘルスケアにおける AI の価値を実現する方法

複雑な AI モデルを学習するには膨大な量のデータが必要であり、ヘルスケア データは全データのほぼ ...

Github 年次レポートレビュー: TensorFlow が間違いなく最大の勝者です!

現在、世界中の何百万もの開発者が GitHub を使用してコードを共有し、ビジネスを構築しており、多...

コミュニティオーナーの中には顔認識に抵抗する人もいる。「私が家にいないときは、すべて知っている」

Chinanews.com 北京、12月29日(記者 呉涛)最近、一部のユーザーからChinane...

マイクロソフトはOpenAIの警告を無視し、未熟なBingチャットサービスを開始したと報じられている。

マイクロソフトのBing AIチャットボットは、最初にリリースされたときに論争と混乱を巻き起こしたが...

なぜ人工知能が将来主流になるのか、これを読めば分かる

人工知能と自動化は将来のトレンドではないでしょうか?機械に人体の複雑な筋肉や動作を認識させる方法を考...

...

...

北京で人工知能アイスクリームマシンがデビュー、IBMは「AI + ブロックチェーン」でダイヤモンドを識別

1. 人工知能搭載のアイスクリームセルフサービス機が北京でデビューDairyXmas AI人工知能ア...

フェイフェイ・リー氏のチームは、一人暮らしの高齢者のCOVID-19症状を監視する家庭用AIシステムを開発

[[321322]]フェイフェイ・リーCOVID-19パンデミックにより、高齢者の介護はさらに困難に...

AIを活用してデジタル変革プロジェクトを改善する9つの方法

AI と ML テクノロジーが人気の話題になると、デジタル トランスフォーメーションの定義とビジネス...

4K 品質の 3D 合成ビデオはもはやスライドショーにならず、新しい方法でレンダリング速度が 30 倍以上向上

4K 品質の 60 フレームのビデオは一部のアプリでメンバーシップがなければ視聴できませんが、AI ...

...