GenAI 時代のデータ ガバナンスの青写真

GenAI 時代のデータ ガバナンスの青写真

ML と GenAI の世界に深く入り込むにつれて、データ品質への重点が重要になります。 KMS Technology の高度技術イノベーション グループの CTO である John Jeske が、データ系統追跡やフェデレーテッド ラーニングなどのデータ ガバナンス アプローチについて詳しく解説し、最高のモデル パフォーマンスを実現します。

データの品質は、モデルの持続可能性と利害関係者の信頼にとって重要です。モデリング プロセス中、データの品質によって長期的なメンテナンスが容易になり、利害関係者コミュニティにおけるユーザーの信頼と信用を構築できるようになります。大規模言語や生成アルゴリズムを含む複雑なモデルでは、「ガベージイン、ガベージアウト」の影響がさらに悪化します。 「ジェスケは言った。

遺伝的AIバイアスとデータの代表性の問題

ユースケースにどのモデルを選択しても、データ品質が低いと GenAI モデルに歪みが生じてしまいます。落とし穴は、多くの場合、企業の範囲、顧客ベース、またはアプリケーションの範囲を誤って表現するトレーニング データから生じます。

本当の資産は、一時的なモデルやモデリング アーキテクチャではなく、データそのものです。収益化可能な資産としてのデータの継続的な価値は、ここ数か月で多数のモデリング フレームワークが登場したことで特に明らかになりました。

KMSテクノロジーのソフトウェアサービス担当上級副社長ジェフ・スコット氏は次のように付け加えた。「AIが生成したコンテンツが意図した出力から外れても、それはアルゴリズムのせいではありません。むしろ、トレーニングデータの不備や歪みを反映しているのです。」

厳格なデータ整合性ガバナンス

データ ガバナンスのベスト プラクティスには、メタデータ管理、データ管理、自動品質チェックの導入などのアクティビティが含まれます。たとえば、データの出所を確認し、トレーニングやモデリング用のデータを取得するときに認定データセットを使用し、自動化されたデータ品質ツールの使用を検討します。これらのツールは複雑さを増す一方で、データの整合性を実現するのに非常に役立ちます。

データ品質を向上させるために、データの有効性、整合性チェック、時間的一貫性などの特性を提供するツールを使用します。これにより、堅牢な AI モデルに不可欠な信頼性と一貫性のあるデータが促進されます。

AI開発における説明責任と継続的改善

データはすべての人の問題であり、企業内でデータ ガバナンスの責任を割り当てることは重要なタスクです。

最も重要なことは、機能が設計どおりに動作し、トレーニングされるデータが潜在顧客の観点から意味をなすものであることを確認することです。フィードバックは学習を強化し、次にモデルをトレーニングするときに考慮され、信頼されるまで継続的な改善が促されます。

当社のワークフローでは、AI および ML モデルは公開される前に厳格な社内テストを受けます。当社のデータ エンジニアリング チームは継続的にフィードバックを受け取り、モデルを反復的に改善してバイアスやその他の異常を最小限に抑えることができます。

リスク管理と顧客の信頼

データ ガバナンスには、関連するビジネス領域からのデータ管理と、専門家の継続的な関与が必要であり、これにより、チームとシステムを流れるデータの適切な照合と一貫性に対する説明責任が確保されます。

テクノロジーから不正確な結果を受け取ることに伴うリスクを理解する必要があり、企業はデータの出所や知的財産の取り扱いから全体的なデータの品質と整合性に至るまで、透明性を評価する必要があります。

透明性は顧客の信頼にとって不可欠であり、データ ガバナンスは単なる技術的な取り組みではありません。不正確な AI 予測からエンド ユーザーへのリスクが移行するため、企業の評判にも影響します。

要約すると、GenAI が進化し続けるにつれて、データ品質を維持するだけでなく、そのデータとそれを活用する AI モデルとの複雑な関係を理解するためにも、データ ガバナンスを習得することがさらに重要になります。この洞察は、技術の進歩、ビジネスの健全性、そして利害関係者や一般大衆の信頼の維持にとって非常に重要です。

<<:  OpenAIの創設者サム・アルトマンが解雇されてから24時間後

>>:  生成AIの5つの主要モデル:VAE、GAN、拡散、トランスフォーマー、NeRF

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

画像認識が最も得意な会社はどこでしょうか? Microsoft、Amazon、Google、それともIBM?

[51CTO.com クイック翻訳] 認識ソフトウェアは、特定の種類の画像を正しく分類するのに非常...

...

...

AI、メタバース、職場におけるDEI

AI とメタバースが仕事を変えるにつれて、リーダーは DEI に影響を与える新興テクノロジーの 3...

ByteDanceは、従来の4倍の速度を誇る高性能トレーニングおよび推論エンジンLightSeqを発表した。

Transformer モデルは、Google チームが 2017 年に発表した論文「Attent...

あなたのキャリアはAIの影響を受けますか?

[[277927]] [51CTO.com クイック翻訳] 今日、私たちは日常生活や仕事を実現する...

Weiboはどのように実装されていますか? Weiboの背後にあるアルゴリズム

導入Weiboは多くの人が利用するソーシャルアプリケーションです。毎日Weiboを閲覧する人は、オリ...

デザイナーのための人工知能ガイド: 基本概念

Google が開発した AlphaGo が囲碁の名人に勝利したとき、シンシナティ大学の Psibe...

ビデオチャットでも顔を偽ることはできますか?恐ろしい AI 顔交換ソフトウェアを詳しく見る

[[397963]]誰もがビデオ AI による顔の修正について聞いたことがあるはずです。ビデオクリッ...

ユーザーの旅行需要予測

1. 背景と課題1. 背景Fliggy アプリ、Alipay、Taobao では、航空券、鉄道チケッ...

スタートアップが大手企業から学び機械学習を開発する際に考慮すべき5つの変数

[[186364]]人工知能 (AI) と機械学習 (ML) をめぐる誇大宣伝は信じられないほどのレ...

GitHub の機械学習プロジェクトのトップ 5。残念です!

機械学習は急速に発展しています。実用的で高度な機械学習プロジェクトを見つけたい場合、第一の選択肢は ...

CNNとRNNについての簡単な説明

[[338562]] 【51CTO.comオリジナル記事】 1 はじめに前回の記事では、ディープラー...

1日1,000個以上の星を生成したテスラのAIディレクターがGPT Pytorchトレーニングライブラリを作成した

GPT モデルが無敵の戦艦だとすると、minGPT はおそらく風や波に乗れる小型ヨットでしょう。最近...