データと人工知能の整合性をどのように確保するか?

データと人工知能の整合性をどのように確保するか?

2022 年、データと AI はデジタル革命の新たな章の基盤を築き、ますます多くのグローバル企業に力を与えます。では、企業はどのようにして、これらの革新的なテクノロジーの中心に責任と倫理を据えることができるのでしょうか?

1. データとAIの責任を定義する

注釈者とデータラベラーの間で多様なサンプルが不足していることは、AI におけるバイアスの最大の原因の 1 つです。

責任あるAIは包括的な基礎作業から始める必要がある、とノースイースタン大学クーリーコンピュータサイエンス学部のCivic AI Labの助教授兼ディレクターであり、VentureBeat Data Summitのパネリストでもあるサイフ・サベージ氏は述べた。

「考慮すべき重要な点は、データにラベルを付けるには異なるタイプの労働力が必要だということです」とサベージ氏はベンチャービートのデータサミットで述べ、労働者がニューヨーク出身者だけであると仮定すると、彼らの情報のラベル付け方法は地方の労働者のものとは異なるだろうと述べた。それは、労働者が持つさまざまな種類の経験とさまざまな種類の偏見によって異なります。 ”

業界の専門家によると、現在生産されている多くの AI モデルでは、AI の知能を高め、最終的にはマシンの全体的な機能を高めるために、注釈が付けられラベル付けされたデータの学習が必要です。

これをサポートできるテクノロジーは複雑で、自然言語処理 (NLP)、コンピューター ビジョン、感情分析などがあり、これらのテクノロジーの複雑さによって AI のトレーニングにおける誤差の範囲が決まります。

研究によると、よく知られている NLP 言語モデルでさえ、人種、宗教、性別、職業に関する偏見が含まれていることが分かっています。同様に、研究者はコンピューター ビジョン アルゴリズムにおけるバイアスの証拠を文書化し、これらのモデルがオンライン上の人々のグループをステレオタイプ化するデータ (人種、性別、体重など) からバイアスを自動的に学習することを示しています。感情分析モデルでも同じ課題に直面しています。

データサミットのパネリストであり、世界的なデータラベリングプラットフォームであるToloka AIのCEOであるオルガ・メゴルスカヤ氏は、責任あるAIは重要だが、実行可能でなければ機能しないと考えています。企業をターゲットとする場合、責任ある AI では、運用環境に展開されているモデルの品質と AI の決定のソースを常に監視する必要があります。ユーザーはモデルのトレーニング データを理解し、モデルが実行されるコンテキストに基づいて継続的に更新する必要があります。したがって、責任ある AI とは、AI モデルのトレーニングの背後にいる関係者を責任を持って扱うことを意味し、現在、多くの研究者や大学が緊密に協力して取り組んでいます。

2. 説明可能性と透明性

責任ある AI が実行可能になるためには、AI の説明可能性と透明性は、情報の背後にある感情と同じくらい重要です。その情報感情は、データを処理する注釈者やラベル付け者、そして Toloka のようなサービスを利用する企業顧客によって決定されます。

Toloka は 2014 年の設立以来、クラウドソーシング プラットフォームおよびマイクロタスク処理プロジェクトとして位置付けられており、世界中のさまざまな個人に大量のデータを迅速にラベル付けしてもらい、それを機械学習や検索アルゴリズムの改善に利用しています。

過去 8 年間で、Toloka はプロジェクトを拡大し、現在では 20 万人を超えるユーザーが世界 100 か国以上のデータに注釈を付け、ラベル付けを行っています。 Toloka は、データセットやツールの偏りを検出するツールも開発しており、これにより、依頼元の企業のインターフェース、プロジェクト、ツールに影響を与える可能性のあるラベル付けプロジェクトに関連する問題について迅速にフィードバックを提供できます。トロカ氏は、サベージ氏が勤務するノースイースタン大学クーリーコンピュータサイエンス学部の Civic AI Lab の研究者とも緊密に連携している。

メゴルスカヤ氏は、AIとデータラベリング市場の企業は透明性と説明可能性を追求すべきであり、それは「労働者の利益になるだけでなく、企業の利益にもなり、相互発展から誰もが利益を得られるウィンウィンの状況になる」と述べた。

Megorskaya 氏は、企業が社内外の両方で透明性と説明可能性を確保するために、以下の点に注意することを推奨しています。

1. AIトレーニング用のデータを継続的に調整し、現在の現実の状況を反映したデータを使用します。

2. モデルの品質を測定し、この情報を使用してモデル品質メトリックを構築し、時間の経過に伴う改善を追跡します。

3. 柔軟性を保ち、データラベラーが注釈を付ける際に従うべき可視性ガイドラインとして透明性を考慮します。

4. フィードバックに簡単にアクセスでき、優先順位が付けられていることを確認します。

たとえば、Toloka のプラットフォームは、利用可能なタスクの可視性と作業を行うラベラーへのガイダンスを提供し、ラベラーとラベリングを行う企業間の直接的で迅速なフィードバック ループを保証します。ラベル付けのルールやガイドラインを調整する必要がある場合は、すぐに変更できます。この標準により、ラベリング チームは、データ ラベリング プロセスの残りの部分に、より統一された、正確で最新の方法で取り組むことができ、起こり得るバイアスに対処するための人間中心のアプローチの余地が生まれます。

3. イノベーションの最前線に「人間性」を置く

メゴルスカヤ氏とサベージ氏は両者とも、ラベル付けと AI モデルのトレーニングを外注する企業は、実際にデータをラベル付けした個人とやり取りしないことを選択することが多いと述べています。したがって、企業がデータのラベル付けや注釈付けの作業を第三者に任せたり、外注したりする決定自体が、AI の責任ある開発に亀裂を生み出すことになります。

Toloka 氏は、AI 制作から偏見を取り除き、体系的な断絶のサイクルを断ち切ることで、AI と機械学習がより包括的かつ代表的なものになると考えています。

彼らはまた、この変化への道を切り開き、開発者が企業にデータラベラーと直接会うよう求めてほしいと願っている。これにより、データと人工知能が存在するユーザーの多様性を理解することができます。企業のテクノロジーが実際の人々、場所、コミュニティの可視性を妨げると、エンジニアリングによって最終的にギャップが生じ、そのギャップを埋めることで、チームが前進するためのより好ましい環境が構築されます。

「現代の世界では、事前に選ばれた少数の人々が収集したデータを使って、非効率的な AI モデルをトレーニングすることができます。彼らは一生をかけてこの注釈付けを行っています」とメゴルスカヤ氏は語った。

Toloka は現在、労働者の間に存在する可能性のある偏見を示すデータ テーブルを作成しています。

「データのラベル付けを行う際、これらのシートには、従業員のバックグラウンドの種類や、欠落している可能性のあるコンテキストなどの情報が表示されます」と Savage 氏は説明します。これは特に開発者や研究者にとって役立ち、意思決定を行う際に、次回の実行時に欠落している可能性のあるコンテキストや視点を取得して、モデルをより包括的にすることができます。

すべてのデータセットとモデルで無数の人種、背景、経験を網羅するのは、困難な作業のように思えるかもしれません。しかし、サベージ氏とメゴルスカヤ氏は、偏見を正すことはこれよりも難しい作業であるため、企業、研究者、開発者が公正で責任ある AI を強化するための最も重要な方法は、できるだけ多くの主要な利害関係者を関与させることであると強調しました。

「AIを絶対的に責任ある倫理的なものにするのは難しいが、できる限り近づけることが重要だ」とメゴルスカヤ氏は述べた。エンジニアに責任を持って効果的にAIを構築するための最良のツールを提供するには、できるだけ幅広く包括的な表現が必要だとメゴルスカヤ氏は述べた。

<<:  MLOps 向け機械学習設計パターン

>>:  CMU がオープンソースの AI コード生成モデルを作成、C 言語は Codex を上回る

ブログ    
ブログ    

推薦する

マイクロソフトの小型モデルが大型モデルに勝利:27億のパラメータ、携帯電話で実行可能

先月、マイクロソフトのCEOであるサティア・ナデラ氏はIgniteカンファレンスで、自社開発の小型モ...

マイクロソフト、世界規模の公開顔認識データベース MS Celeb を削除

フィナンシャル・タイムズによると、マイクロソフトは、約10万人の1000万枚以上の画像が含まれていた...

...

...

ChatGPT 新学期ギフトパック: 公式教師ユーザーガイドがオンラインになりました

こんにちは、教師向けに特別に設計された ChatGPT 教室チートの登場です! OpenAIの公式製...

PyTorch ライブラリの 95% がこのバグの影響を受けます。テスラのAIディレクターも例外ではなかった

[[393110]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

中国のAI特許申請数が米国を上回った!我が国の最新の5Gの成果:世界をリードする技術

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

[探索] 機械学習モデルのトレーニングをサポートする 8 つの JavaScript フレームワーク

[[221813]] [51CTO.com クイック翻訳] JavaScript 開発者は、さまざま...

誰も教えてくれないAI大規模導入の効率的なプロセス!

現在、AIに関するチュートリアルは数多くあります。オブジェクト検出、画像分類、NLP の実行方法、チ...

人工知能を始めるときに尋ねるべき10の質問

人工知能 (AI) と機械学習 (ML) のテクノロジーは、世界中のほぼすべての業界に革命をもたらし...

...

ルーティングアルゴリズムの概念

この記事では主にルーティング アルゴリズムの概念を説明し、ルーティング アルゴリズムの基本的な概念を...

...

COVID-19は非接触アクセス制御の新時代を加速させる

現在、新型コロナウイルス感染症のパンデミックが世界的に拡大し、私たちの知る世界は大きく変化しています...