データと人工知能の整合性をどのように確保するか?

2022 年、データと AI はデジタル革命の新たな章の基盤を築き、ますます多くのグローバル企業に力を与えます。では、企業はどのようにして、これらの革新的なテクノロジーの中心に責任と倫理を据えることができるのでしょうか?

1. データとAIの責任を定義する

注釈者とデータラベラーの間で多様なサンプルが不足していることは、AI におけるバイアスの最大の原因の 1 つです。

責任あるAIは包括的な基礎作業から始める必要がある、とノースイースタン大学クーリーコンピュータサイエンス学部のCivic AI Labの助教授兼ディレクターであり、VentureBeat Data Summitのパネリストでもあるサイフ・サベージ氏は述べた。

「考慮すべき重要な点は、データにラベルを付けるには異なるタイプの労働力が必要だということです」とサベージ氏はベンチャービートのデータサミットで述べ、労働者がニューヨーク出身者だけであると仮定すると、彼らの情報のラベル付け方法は地方の労働者のものとは異なるだろうと述べた。それは、労働者が持つさまざまな種類の経験とさまざまな種類の偏見によって異なります。 ”

業界の専門家によると、現在生産されている多くの AI モデルでは、AI の知能を高め、最終的にはマシンの全体的な機能を高めるために、注釈が付けられラベル付けされたデータの学習が必要です。

これをサポートできるテクノロジーは複雑で、自然言語処理 (NLP)、コンピュータービジョン、感情分析などがあり、これらのテクノロジーの複雑さによって AI のトレーニングにおける誤差の範囲が決まります。

研究によると、よく知られている NLP 言語モデルでさえ、人種、宗教、性別、職業に関する偏見が含まれていることが分かっています。同様に、研究者はコンピュータービジョンアルゴリズムにおけるバイアスの証拠を文書化し、これらのモデルがオンライン上の人々のグループをステレオタイプ化するデータ (人種、性別、体重など) からバイアスを自動的に学習することを示しています。感情分析モデルでも同じ課題に直面しています。

データサミットのパネリストであり、世界的なデータラベリングプラットフォームであるToloka AIのCEOであるオルガ・メゴルスカヤ氏は、責任あるAIは重要だが、実行可能でなければ機能しないと考えています。企業をターゲットとする場合、責任ある AI では、運用環境に展開されているモデルの品質と AI の決定のソースを常に監視する必要があります。ユーザーはモデルのトレーニングデータを理解し、モデルが実行されるコンテキストに基づいて継続的に更新する必要があります。したがって、責任ある AI とは、AI モデルのトレーニングの背後にいる関係者を責任を持って扱うことを意味し、現在、多くの研究者や大学が緊密に協力して取り組んでいます。

2. 説明可能性と透明性

責任ある AI が実行可能になるためには、AI の説明可能性と透明性は、情報の背後にある感情と同じくらい重要です。その情報感情は、データを処理する注釈者やラベル付け者、そして Toloka のようなサービスを利用する企業顧客によって決定されます。

Toloka は 2014 年の設立以来、クラウドソーシングプラットフォームおよびマイクロタスク処理プロジェクトとして位置付けられており、世界中のさまざまな個人に大量のデータを迅速にラベル付けしてもらい、それを機械学習や検索アルゴリズムの改善に利用しています。

過去 8 年間で、Toloka はプロジェクトを拡大し、現在では 20 万人を超えるユーザーが世界 100 か国以上のデータに注釈を付け、ラベル付けを行っています。 Toloka は、データセットやツールの偏りを検出するツールも開発しており、これにより、依頼元の企業のインターフェース、プロジェクト、ツールに影響を与える可能性のあるラベル付けプロジェクトに関連する問題について迅速にフィードバックを提供できます。トロカ氏は、サベージ氏が勤務するノースイースタン大学クーリーコンピュータサイエンス学部の Civic AI Lab の研究者とも緊密に連携している。

メゴルスカヤ氏は、AIとデータラベリング市場の企業は透明性と説明可能性を追求すべきであり、それは「労働者の利益になるだけでなく、企業の利益にもなり、相互発展から誰もが利益を得られるウィンウィンの状況になる」と述べた。

Megorskaya 氏は、企業が社内外の両方で透明性と説明可能性を確保するために、以下の点に注意することを推奨しています。

1. AIトレーニング用のデータを継続的に調整し、現在の現実の状況を反映したデータを使用します。

2. モデルの品質を測定し、この情報を使用してモデル品質メトリックを構築し、時間の経過に伴う改善を追跡します。

3. 柔軟性を保ち、データラベラーが注釈を付ける際に従うべき可視性ガイドラインとして透明性を考慮します。

4. フィードバックに簡単にアクセスでき、優先順位が付けられていることを確認します。

たとえば、Toloka のプラットフォームは、利用可能なタスクの可視性と作業を行うラベラーへのガイダンスを提供し、ラベラーとラベリングを行う企業間の直接的で迅速なフィードバックループを保証します。ラベル付けのルールやガイドラインを調整する必要がある場合は、すぐに変更できます。この標準により、ラベリングチームは、データラベリングプロセスの残りの部分に、より統一された、正確で最新の方法で取り組むことができ、起こり得るバイアスに対処するための人間中心のアプローチの余地が生まれます。

3. イノベーションの最前線に「人間性」を置く

メゴルスカヤ氏とサベージ氏は両者とも、ラベル付けと AI モデルのトレーニングを外注する企業は、実際にデータをラベル付けした個人とやり取りしないことを選択することが多いと述べています。したがって、企業がデータのラベル付けや注釈付けの作業を第三者に任せたり、外注したりする決定自体が、AI の責任ある開発に亀裂を生み出すことになります。

Toloka 氏は、AI 制作から偏見を取り除き、体系的な断絶のサイクルを断ち切ることで、AI と機械学習がより包括的かつ代表的なものになると考えています。

彼らはまた、この変化への道を切り開き、開発者が企業にデータラベラーと直接会うよう求めてほしいと願っている。これにより、データと人工知能が存在するユーザーの多様性を理解することができます。企業のテクノロジーが実際の人々、場所、コミュニティの可視性を妨げると、エンジニアリングによって最終的にギャップが生じ、そのギャップを埋めることで、チームが前進するためのより好ましい環境が構築されます。

「現代の世界では、事前に選ばれた少数の人々が収集したデータを使って、非効率的な AI モデルをトレーニングすることができます。彼らは一生をかけてこの注釈付けを行っています」とメゴルスカヤ氏は語った。

Toloka は現在、労働者の間に存在する可能性のある偏見を示すデータテーブルを作成しています。

「データのラベル付けを行う際、これらのシートには、従業員のバックグラウンドの種類や、欠落している可能性のあるコンテキストなどの情報が表示されます」と Savage 氏は説明します。これは特に開発者や研究者にとって役立ち、意思決定を行う際に、次回の実行時に欠落している可能性のあるコンテキストや視点を取得して、モデルをより包括的にすることができます。

すべてのデータセットとモデルで無数の人種、背景、経験を網羅するのは、困難な作業のように思えるかもしれません。しかし、サベージ氏とメゴルスカヤ氏は、偏見を正すことはこれよりも難しい作業であるため、企業、研究者、開発者が公正で責任ある AI を強化するための最も重要な方法は、できるだけ多くの主要な利害関係者を関与させることであると強調しました。

「AIを絶対的に責任ある倫理的なものにするのは難しいが、できる限り近づけることが重要だ」とメゴルスカヤ氏は述べた。エンジニアに責任を持って効果的にAIを構築するための最良のツールを提供するには、できるだけ幅広く包括的な表現が必要だとメゴルスカヤ氏は述べた。

<<: MLOps 向け機械学習設計パターン

>>: CMU がオープンソースの AI コード生成モデルを作成、C 言語は Codex を上回る