データが機械学習において重要な役割を果たすことは否定できません。各機械学習モデルインスタンスは静的データセットを使用してトレーニングおよび評価されますが、これらのデータセットの特性はモデルの動作に根本的な影響を与えます。モデルの展開環境がトレーニングまたは評価データセットと一致しない場合、またはこれらのデータセットに不要なエラーやバイアスが含まれている場合、モデルが適切に機能することは不可能です。この不一致は、採用や財務などの重要分野に機械学習モデルを適用する場合に特に深刻な結果をもたらす可能性があります。他の分野でも、ミスマッチは収益の損失につながる可能性があります。 データの信頼できる出所はデータベース コミュニティで広く研究されてきましたが、機械学習ではそうではありません。データセットの作成と使用の文書化は十分な注意が払われておらず、現在、機械学習データセットを文書化するための標準化されたプロセスはありません。 何か良い方法はないでしょうか?リスト管理を試してみてはいかがでしょうか。 1. リスト管理についてエレクトロニクス業界では、どんなに単純または複雑なコンポーネントでも、その動作特性、テスト結果、推奨される用途、その他の情報を記載したデータ シートが付属しています。同様に、各データセットにその動機、構成、収集、目的などを記録するインベントリ リストを添付するインベントリ管理を使用することもできます。データセットをインベントリ化すると、機械学習の透明性と説明責任が向上し、機械学習モデルにおける不要なエラーやバイアスが削減されます。 データセットのインベントリは、データセット作成者とデータセット利用者という 2 つの主要グループのニーズを満たす必要があります。データセット作成者にとって、インベントリは、潜在的な想定、リスクや危害、使用の影響など、データセットの作成、配布、維持のプロセスを振り返ることを可能にします。データセットの消費者にとって、マニフェストは、データセットを使用する際に十分な情報に基づいた決定を下すために必要な情報を確実に提供します。データセットの利用者が適切なデータセットの選択を完全に理解し、不注意による誤用を避けるためには、データセット作成者からの透明性が必要です。 同時に、データセットのインベントリ管理により機械学習の結果の再利用性が向上し、データセットにアクセスできない開発者はインベントリの情報を使用して、同様の特性を持つ代替データセットを作成できます。 2. データセットライフサイクルのチェックリストデータセットのライフサイクルには、動機付け、構成、取得、前処理/クリーニング/ラベル付け、使用、配布、メンテナンスが含まれます。データ セットのライフ サイクルについては、履歴書チェックリストを試すことができます。リストの内容はすべてのデータセットに適用されるわけではないので、適用されないオプションはスキップできることに注意してください。 2.1 データセット作成の動機 データセットを作成する理由は、データセットを作成する動機です。セルフチェックリストには次のような内容が含まれます。
2.2 データセットの構成 データセットの作成者は、データ収集前に情報を明確にリストし、データセットの消費者がデータセットを使用するかどうかについて十分な情報に基づいた決定を下せるように、データセットの消費者に提供する必要がある情報を理解する必要があります。なお、個人情報が関係する場合は、個人情報保護法その他の法律や規制の制限に注意する必要があります。
データセットが人に関するものであれば、次のものも含まれることがあります。
2.3 コレクション データ取得プロセスにより、類似の特性を持つ代替データセットを作成できます。これには次のものが含まれます。
データセットが人に関するものであれば、次のものも含まれることがあります。
2.4 前処理/洗浄/ラベル付け データセットの消費者は、選択したタスクと互換性のある方法で「生の」データが処理されているかどうかを判断するために、処理を理解する必要があります。リストには以下が含まれます:
2.5 目的 データセットのアプリケーション境界とは何でしょうか? これらのタスクを明確にすることで、データセット作成者はデータセット利用者が十分な情報に基づいた決定を下し、潜在的なリスクや危害を回避できるように支援できます。
2.6 配布 データセットの配布は、データセットが代表する組織の内部で行われるか、または外部の第三者に対して行われます。リストには以下が含まれます。
2.7 メンテナンス あなたを支えてくれる人がいない人生は送らないでください。データセットのメンテナンス計画に関しては、チェックリストには次の内容が含まれる場合があります。
3. データセットインベントリ管理の役割と影響データセットのインベントリ管理では、不要なバイアスや潜在的なリスクを軽減するための完全なソリューションは提供されません。データセットの作成者は、データセットのあらゆる使用方法を予測できるとは限りません。人間関連のデータセットを作成する場合、より適切にデータを収集するために、複数の分野の専門家と協力する必要がある場合があります。 データセットの在庫管理は必然的にデータセット作成者のコストを増加させます。チェックリストには一回限りの問題に対するオプションが多くありますが、チェックリストを作成するプロセスには常に時間がかかり、組織のインフラストラクチャとワークフローを変更する必要があり、開発コストもかかります。動的なデータセットではインベントリ リストとワークフローが問題になる可能性があり、データセットのインベントリを頻繁に更新するとコストがかかる可能性があります。 それでも、データセットのインベントリ管理により、データセット作成者とデータセット利用者間のコミュニケーションが改善され、データセット作成者は透明性と信頼性を区別できるようになります。全体として、データセットのインベントリ管理には、欠点よりも利点の方が多いはずです。 |
>>: 人工知能産業の急速な発展により、2021年以降、人工知能セキュリティの市場スペースは巨大になるでしょう。
人工知能(AI)には、「学習意欲を持つインテリジェントエージェント」の開発が伴います。さまざまなアク...
デジタル技術は私たちが暮らす世界のあらゆる側面を変えており、小売店は消費者がこの変化を経験する主な場...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
新しい AI プロジェクトに取り組んでいて、プログラミングに使用する言語をまだ決めていない場合は、今...
企業のデジタル変革は、次々と熱狂の波をもたらしました。国際的な権威ある組織は、今後数年間の企業のデジ...
最近、ロボットが人気になってきました。家庭生活、ホテル経営、学校教育、医療などさまざまな場面でロボッ...
これまで、多くのメディアがニューラルネットワークの「ブラックボックス」問題について熱く議論してきまし...
【51CTO.comオリジナル記事】 COVID -19の流行がもたらした厳しい課題に直面して、科...
1. NeMoフレームワークの紹介NVIDIA NeMo は、PyTorch と PyTorch L...
BBCによると、サイズミック社は「スーパースーツ」と呼ばれる新しいウェアラブルデバイスを開発した。こ...
「こんにちは。投資したいお金があります。期待収益は 6 ~ 10 ポイントです。1 年間投資したいと...
2010 年に ImageNet ベースのコンピューター ビジョン コンペティションが開始され、ディ...
機械学習の手法を使用して問題を解決する場合、適切なデータを持つことが重要です。残念ながら、生データは...
新たな研究によると、最先端の人工知能が英国の廃棄物リサイクル方法に革命をもたらす可能性があるという。...