データ ガバナンスは AI 疲労の問題を解決できるか?

データ ガバナンスは AI 疲労の問題を解決できるか?

データ ガバナンスと AI 疲労は 2 つの異なる概念のように聞こえるかもしれませんが、この 2 つは本質的に関連しています。よりよく理解するために、まずはその定義から始めましょう。

データガバナンス

これは長い間、データ業界の中心的な焦点となってきました。

Google は次のようにうまく表現しています。「データ ガバナンスとは、データが安全で、プライベートで、正確で、利用可能で、使用可能であることを保証するために行うすべてのことです。これには、データの収集、保存、処理、廃棄方法に関する社内標準、つまりデータ ポリシーの策定が含まれます。」

この定義が強調しているように、データ ガバナンスとは、データ、具体的には AI モデルを駆動するエンジンを管理することです。

データ ガバナンスと AI のつながりの最初の兆候が現れ始めたので、これを AI 疲労と結び付けてみましょう。名前からそれが分かりますが、この疲労につながる原因を強調することで、投稿全体でこの用語を一貫して使用できるようになります。

AI疲労

AI 疲労は、企業、開発者、またはチームが直面するフラストレーションや課題によって発生し、価値の実現や AI システムの実装の失敗につながることがよくあります。

それは主に、AI の能力に対する非現実的な期待から始まります。 AI のような複雑なテクノロジーの場合、主要な関係者は AI の機能と可能性だけでなく、その限界とリスクについても理解する必要があります。

リスクに関しては、倫理は後回しにされることが多く、規制を満たさない AI イニシアチブは放棄されることになります。

皆さんは、データ ガバナンスが AI 疲労を引き起こす役割について疑問に思っているに違いありません。それがこの記事の前提です。

次はここへ行きます。

AI疲労は、導入前と導入後に大まかに分けられます。まずは展開前の作業に焦点を当てましょう。

展開前

PoC を展開にアップグレードするには、次のような多くの要素が関係します。

  • 私たちはどんな問題を解決しようとしているのでしょうか?
  • なぜ今、優先順位付けが緊急の課題となっているのでしょうか?
  • どのようなデータが利用可能ですか?
  • まず ML です — 解決可能でしょうか?
  • データにパターンはありますか?
  • この現象は繰り返されるのでしょうか?
  • どのような追加データがあればモデルのパフォーマンスが向上するでしょうか?

問題が ML アルゴリズムを使用して最も効果的に解決できると評価されると、データ サイエンス チームは探索的データ分析を実行します。この段階では、多くの基礎データ パターンが明らかになり、特定のデータに豊富なシグナルが含まれているかどうかが強調されます。また、アルゴリズムの学習プロセスを高速化するために設計された機能を作成するのにも役立ちます。

次に、チームは最初のベースライン モデルを構築しますが、通常はそのモデルが許容できるレベルに達していないことがわかります。コインを投げた結果と同等の結果しか出ないモデルは、何の価値も追加しません。これは、ML モデルを構築するときに最初に直面するフラストレーションと教訓の 1 つです。

企業は、あるビジネス上の問題から別の問題へと移行し、疲労につながる可能性があります。それでも、基礎となるデータが豊富なシグナルを運んでいなければ、AI アルゴリズムはそれを基に構築することはできません。モデルは、トレーニング データから統計的な関連性を学習して、未知のデータに一般化する必要があります。

導入後

トレーニングされたモデルが、70% の精度などの適格なビジネス基準に基づいて検証セットで有望な結果を示したとしても、モデルが運用環境で適切に機能しない場合は、モデル疲労が発生する可能性があります。

このタイプの AI 疲労は、導入後フェーズとして知られています。

パフォーマンスが低下する理由は無数にありますが、データ品質の低さがモデルを悩ませる最も一般的な問題であり、主要な属性がない場合にターゲットの応答を正確に予測する能力が制限されます。

トレーニング データでは 10% しか欠落していなかった重要な特徴の 1 つが、実稼働データでは 50% の確率で null になり、予測が不正確になるというケースを考えてみましょう。このような反復作業と、モデルが一貫して機能するようにするための作業は、データ サイエンティストとビジネス チームを疲弊させ、データ パイプラインの信頼性を損ない、プロジェクトへの投資を危険にさらします。

データガバナンスが鍵

両方のタイプの AI 疲労に対処するには、堅牢なデータ ガバナンス対策が不可欠です。データは ML モデルの中心であるため、シグナルが豊富でエラーのない高品質のデータが ML プロジェクトの成功に不可欠です。 AI疲労に対処するには、データガバナンスに重点を置く必要があります。したがって、最先端のモデルを構築し、信頼できるビジネス分析情報を提供するための基盤を築くために、適切なデータ品質を確保するために厳格に取り組む必要があります。

データ品質

データ品質は、データ ガバナンスを成功させるための鍵であり、機械学習アルゴリズムの成功に不可欠な要素です。企業は、データ消費者へのレポートの公開など、データ品質に投資する必要があります。データ サイエンス プロジェクトでは、低品質のデータがモデルに入力され、パフォーマンスが低下する可能性がある場合に何が起こるかを考えます。

チームはバグ分析中にのみデータ品質の問題を特定できるため、これらの問題が上流に送信されて修正されると、最終的にはチーム間の疲労につながります。

当然ながら、この労力がかかるだけでなく、正しいデータが入ってくるまでにかなりの時間が失われます。

したがって、このような時間のかかる反復を防ぐために、ソースでデータの問題を修正することを常に推奨します。最終的に、公開されたデータ品質レポートは、データ サイエンス チーム (またはその他の下流のユーザーやデータ コンシューマー) が受信データの許容可能な品質を理解していることを意味します。

データ品質とガバナンス対策が整備されていないと、データ サイエンティストはデータの問題に圧倒され、AI 疲労を引き起こす失敗したモデルを作成することになります。

結論

この投稿では、AI 疲労が始まる 2 つの段階に焦点を当て、データ品質レポートなどのデータ ガバナンス対策が、信頼性が高く堅牢なモデルの構築をどのように促進できるかについて説明します。

データ ガバナンスを通じて強固な基盤を確立することで、企業は AI の開発と導入を成功に導くシームレスなロードマップを構築し、熱意を喚起することができます。

この投稿では、AI 疲労と戦うためのさまざまなアプローチの包括的な概要を提供するため、組織文化の役割についても強調しました。組織文化は、データ ガバナンスなどの他のベスト プラクティスと組み合わせることで、データ サイエンス チームがより迅速かつ効率的に有意義な AI 貢献を構築できるようになります。

<<:  ファイアウォールは再び進化します。よりスマートで安全になりましたか?

>>:  AIはどのようにして責任を持つようになるのでしょうか?英国規格協会が答えを持っている

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

世界初、常温量子コンピュータが実用化!絶対零度の温度は必要ありません。メインコアには実際に「ダイヤモンドがセットされています」

量子コンピューティングは、おそらく現在最もエキサイティングな(そして話題になっている)研究分野の 1...

...

人工知能の台頭が懸念を引き起こしています。私たちはどう対応すべきでしょうか?

AlphaGoがイ・セドルに勝利したことで世界は人工知能に再び親しむようになったが、アップグレード...

...

...

2017年人工知能に関する消費者意識調査

[[192924]] Pegasystems の調査によると、消費者は人工知能が人間の顧客サービスと...

「科学的シミュラクル」:人工知能とハイパーリアリティの衝突

人工知能(AI)技術の進歩は、現実と表現が区別できなくなるジャン・ボードリヤールのハイパーリアリティ...

機械学習の神話を暴く - 機械学習に関する一般的な神話はどこから来たのか?

機械学習について多くの誤解を持っていると、その人のキャリアや評判に悪影響を与える可能性があります。 ...

プロセス自動化の分野をどのように理解すればよいでしょうか?

[51CTO.com クイック翻訳]今日、プロセス自動化にはさまざまな形があります。また、ツールの...

時代と戦う:ハードコアな百度の AI 探究

2021年2月18日午前、百度は2020年第4四半期および通期の財務報告を発表し、印象的なデータを示...

対照学習も次元の崩壊を引き起こすのでしょうか? LeCunとTian Yuandongのチームの新しい研究DirectCLRは、

[[431792]]自己教師学習はコンピューター ビジョンで広く使用されており、手動で注釈を付ける...

...