AIと機械学習における暗黙のアルゴリズムバイアス

[[226077]]
オープンソースコミュニティを通じて何ができるでしょうか?

アルゴリズムは私たちの世界のいたるところに存在し、偏見も同様です。ソーシャルメディアでのニュース配信からストリーミングサービスの推奨、オンラインショッピングまで、コンピューターアルゴリズム、特に機械学習アルゴリズムは私たちの日常生活のあらゆる側面に浸透しています。偏見に関しては、2016 年の米国選挙を見れば、偏見が私たちの社会に公然と、また秘密裏にどのような影響を与えているかがわかります。

想像しにくいことですが、私たちがしばしば見落としがちなのが、この 2 つの交差点、つまりコンピューターアルゴリズムのバイアスです。

私たちのほとんどが信じていることとは反対に、テクノロジーは客観的なものではありません。 AI アルゴリズムとその意思決定プロセスは、開発者によって形成されます。開発者が記述するコード、使用する「トレーニング」データ、アルゴリズムのストレステストのプロセスはすべて、開発者が将来行う選択に影響を与えます。これは、開発者の価値観、偏見、人間的な欠陥がソフトウェアに反映されることを意味します。研究室の顔認識アルゴリズムに白人の写真だけを入力すると、白人以外の人の写真に遭遇したときに、その写真の人物が人間であるとは認識されなくなります。この結論は、AI が「愚か」または「ナイーブ」であることを意味するのではなく、トレーニングデータの分布が偏っていること、つまり多様な顔写真が不足していることを示しているだけです。これは非常に深刻な結果をもたらすでしょう。

そういった例はたくさんあります。米国全土の州裁判所は犯罪者への判決を下すために「ブラックボックス」を使用している。トレーニングデータの問題により、これらのアルゴリズムは黒人に対して偏見を持っており、黒人犯罪者に対してより長い刑期を選択するため、刑務所における人種間の格差は存続することになる。そして、これらすべては科学的客観性、つまり「科学的」選択という名目で行われているのです。

米国連邦政府は、機械学習アルゴリズムを使用して福祉支出とさまざまな政府補助金を計算します。しかし、これらのアルゴリズムの作成者やトレーニング情報などの情報を見つけるのは困難です。これにより、政府職員が不平等な補助金分配慣行に従事する可能性が高まります。

アルゴリズムによる偏りの事例は他にもたくさんあります。 Facebook のニュースアルゴリズムから医療システム、警察のボディカメラまで、私たち社会は、あらゆる種類の偏見、性差別、外国人嫌悪、社会経済的地位の差別、確証バイアスなどをこれらのアルゴリズムに入力する可能性が非常に高いです。これらの偏った機械は大量生産され、流通され、あらゆる種類の社会的偏見を科学的、技術的客観性のベールの下に隠すことになる。

この状況は継続してはならない。

人工知能の開発と研究を継続するにあたり、その開発速度を緩め、慎重に開発していく必要があります。アルゴリズムによる偏見の危険性はすでに十分に大きい。

アルゴリズムの偏りを減らすにはどうすればよいでしょうか?

最良の方法は、アルゴリズムがトレーニングされたデータから始めることであり、Microsoft の研究者によると、このアプローチはうまく機能するそうです。

データの分布自体に偏りがあります。プログラマーの手元にあるアメリカ国民のデータは、移民よりも現地住民のデータが多く、貧困層よりも富裕層に関するデータが多く、不均等に分配されている可能性が非常に高い。この不均一なデータにより、AI は私たちが社会としてどのような存在であるかについて誤った結論を導き出す可能性があります。たとえば、機械学習アルゴリズムは、統計分析のみで「アメリカ人のほとんどは裕福な白人である」と結論付けることができます。

トレーニングデータ内で男性と女性のサンプルが均等に分散されている場合でも、偏った結果が発生する可能性があります。トレーニングデータ内の男性全員が CEO で、女性全員が秘書である場合 (実際には男性 CEO の方が女性 CEO より多いにもかかわらず)、AI は女性は本来 CEO に向いていないと結論付ける可能性があります。

同様に、法執行機関で使用される AI は、ニュースに登場する犯罪者の写真を検出する際に、黒人やラテン系の住民に対して大きな偏見を持つ可能性があることが、多数の研究で示されています。

トレーニングデータのバイアスには、ここで説明したもの以外にもさまざまな形があります。しかし、トレーニングデータは審査の 1 つの形式にすぎません。「ストレステスト」を通じて人間の偏見を特定することも同様に重要です。

もしインド人の写真を渡されたら、私たち自身のカメラでそれを識別できるでしょうか?同じレベルの応募者 2 人のうち、当社の AI は都市部に住んでいる応募者を推薦する傾向がありますか?対テロアルゴリズムは、諜報機関内の地元の白人テロリストとイラクのテロリストをどのように選択するのでしょうか?救急治療室のカメラは子供の医療記録を閲覧できますか?

これらは AI が理解するには複雑な数値ですが、複数のテストを通じて定義し、伝達することができます。

なぜオープンソースはこのタスクに適しているのでしょうか?

オープンソースメソッドとオープンソーステクノロジーはどちらも、アルゴリズムのバイアスを変える大きな可能性を秘めています。

現代の人工知能は、TensorFlow、IBM Watson、scikit-learn などのオープンソースソフトウェアによって支配されてきました。オープンソースコミュニティは、厳格なテストに耐える堅牢な機械学習ツールを開発できることを実証しました。同様に、オープンソースコミュニティは偏見のないテスト手順を開発し、それをこれらのソフトウェアに適用できると信じています。

コロンビア大学やリーハイ大学の DeepXplore などのデバッグツールは、AI ストレステストの堅牢性を高めるとともに、管理しやすくします。 MIT のコンピュータサイエンスおよび人工知能研究所でも、オープンソースコミュニティに採用されるべきアジャイルで迅速なプロトタイピングの研究ソフトウェアを開発するプロジェクトが進行中です。

オープンソーステクノロジーは、大量のデータをレビューおよび分類する能力も実証しています。これは、データ分析におけるオープンソースツール (Weka、Rapid Miner など) の市場シェアに最も顕著に表れています。オープンソースコミュニティはデータの偏りを識別するツールを設計する必要があり、Kaggle などのオンラインで公開されている大規模なトレーニングデータセットでも、このテクノロジを使用して識別およびスクリーニングを行う必要があります。

オープンソースのアプローチは、反偏見プログラムの設計に適しています。社内会話、非公開のソフトウェア開発、非民主的な意思決定は多くの問題を引き起こします。オープンソースコミュニティは、ソフトウェアに関するオープンな会話を交わし、ソフトウェアを普及させ、一般の人々と良好な関係を維持することができ、これは上記の問題に対処する上で非常に重要です。オンラインコミュニティ、組織、機関がこれらのオープンソースの特性を受け入れることができれば、オープンソースコミュニティはアルゴリズムの偏りをよりスムーズに排除するマシンを設計できるようになります。

どうすれば参加できますか?

教育は非常に重要なつながりです。私たちの周りには、アルゴリズムによる偏見にまだ気づいていない人がたくさんいますが、法律、社会正義、政策などへの影響は彼らにも深く関係しています。アルゴリズムによる偏見がどのように形成され、それがどのような重大な影響を及ぼすのかをこれらの人々に知ってもらうことが重要です。なぜなら、現状を変える唯一の方法は、私たち自身から始めることだからです。

このコミュニケーションは、AI と一緒に働く私たちにとって特に重要です。人工知能の開発者であれ、警察であれ、科学研究者であれ、将来の人工知能を設計する際には、今日存在するこの種の偏見の危険性を特に意識する必要があります。明らかに、人工知能の偏見を排除したいのであれば、偏見の存在を認識することから始めなければなりません。

***、倫理的な AI を中心にオープンソースコミュニティを構築し、強化する必要があります。ストレステストのトレーニングモデルやソフトウェアツールの構築、あるいはギガバイト単位のトレーニングデータの精査など、デジタル時代の最も差し迫った脅威に対抗するには、オープンソースアプローチを活用する必要があります。

<<: [ディープラーニングシリーズ] PaddlePaddle と Tensorflow を使用したクラシック CNN ネットワーク Vgg の実装

>>: デザイナーが危険にさらされています! AI広告デザイン分野におけるSuningの探求と実践