GenAI が近づくにつれて、データ ガバナンスはどのように進化するべきでしょうか?

GenAI が近づくにつれて、データ ガバナンスはどのように進化するべきでしょうか?

著者 | アイザック・サコリック

編集者 | ヤン・ジェン

制作:51CTO テクノロジースタック(WeChat ID:blog)

データ ガバナンスは、データのセキュリティ、管理、品質、カタログ作成など、さまざまな分野をカバーします。この実践では、使用ポリシーの定義、マスター データ ソースの作成、データ セットの分析、辞書の文書化、およびデータ ライフサイクルの監視が必要です。組織モデルでは通常、戦略を推進する最高データ責任者、データセットのポリシーを設定するデータ所有者、およびデータ品質の向上を担当するデータ管理者の役割が定義されます。

「データ ガバナンスはデータ整合性の重要な要素であり、組織が重要なデータを簡単に発見、理解、活用して、正確なレポート作成と情報に基づいた意思決定を行えるようにします」と Precisly の CTO である Tendü Yogurtçu 博士は述べています。「データの意味、系統、影響についての理解が得られるため、企業はコンプライアンスを維持し、信頼できるデータに基づいて AI モデルを構築して信頼できる結果を得ることができます。」

ヨーグルトチュ氏は、データガバナンスはかつてはコンプライアンスに重点を置いた技術的なタスクだったと述べた。 「AIの導入が進むにつれて、データは最も重要な企業資産となり、データガバナンスは企業全体で優先されるべきである」と彼女は述べた。

GenAI を実験したり、大規模言語モデル (LLM) を使用してアプリケーションを構築したりする多くの組織では、データ ガバナンスの責任が大きくなり、AI ツールを使用する従業員のリスクが大きくなり、非構造化データの範囲が広がります。 AI ツールと機能の構築に内在する機会とリスクに対処するために、データ ガバナンスをどのように進化させる必要があるかについて、複数の専門家に相談しました。

GenAI 時代において、組織はデータの取得と使用において新たなリスク、課題、機会に直面します。ここでは、データ ガバナンス チームがこの状況に対応できる 4 つの方法を紹介します。

1. GenAIツールとLLMのデータポリシーを確認する

データ ガバナンス部門は、データ カタログを監視し、データ使用ポリシーを伝えて、従業員が集中管理されたデータ セットにアクセスし、それを使用して機械学習モデル、ダッシュボード、その他の分析ツールを構築できるようにします。これらの部門は現在、エンタープライズ データ ソースを LLM およびオープン GenAI ツールで使用できるかどうか、またどのように使用できるかを決定するためのポリシーを更新しています。開発者とデータ サイエンティストは、これらのポリシーを確認し、データセットを使用して GenAI 実験をサポートするかどうかについてデータ所有者に相談する必要があります。

「生成AIはより複雑なデータをもたらすため、組織はこれらのモデルのトレーニングに使用されるコンテンツを管理および保護するために、優れたデータガバナンスとプライバシーポリシーを導入する必要があります」と、Egnyteの共同創設者兼最高セキュリティ責任者であるクリス・ラヒリ氏は述べています。 「組織は、これらの AI ツールによってどのようなデータが使用されているかを特に意識する必要があります。それが OpenAI や PaLM などのサードパーティのデータであるか、企業が内部で使用する可能性のある内部 LLM であるかは関係ありません。」

プライバシー、データ保護、許容される使用に関する GenAI ポリシーを確認します。多くの組織では、データセットを GenAI ユースケースに使用する前に、リクエストを送信してデータ所有者が承認する必要があります。 GDPR、CCPA、PCI、HIPAA、またはその他のデータ コンプライアンス標準を満たす必要があるデータ セットを使用する前に、リスク、コンプライアンス、法務部門に相談してください。

データ ポリシーでは、サードパーティのデータ ソースを使用する場合、データのサプライ チェーンと責任も考慮する必要があります。 「ベンダーは、特定のゾーン内で保護されているデータに関連するセキュリティインシデントが発生した場合、特にそのデータがAI/MLプラットフォームで使用されることを意図している場合、状況を適切に緩和するために自社と顧客の責任を明確にする必要があります」とEDBの最高製品エンジニアリング責任者、ジョゼフ・デ・フリースは述べています。

GenAI の機会に興味を持っている人にとって、まず組織のデータ プライバシー、セキュリティ、コンプライアンス ポリシーを理解することが重要です。

2. データ品質の改善を加速する

Attacama、Collibra、Experian、IBM、Informatica、Precisely、SAP、SAS、Talend など、多くの企業がデータ品質ソリューションを提供しています。世界のデータ品質ツール市場規模は2022年に40億米ドルを超え、年間成長率は17.7%になると予想されています。現在、多くの企業が AI ツールや LLM を実験しているので、この成長はさらに高くなると予想しています。

「AI の性能は入力するデータによって決まるため、AI の使用における課題の多くはデータの品質に関連しています」と、Piwik Pro の COO である Mateusz Krempa 氏は述べています。 「データ品質が低いと、誤解を招いたり誤った洞察をもたらしたりして、結果に重大な影響を及ぼす可能性があります。」

クレンパ氏は、特にLLMが組織の非構造化データソースを活用するようになった現在、データ品質の課題はビッグデータの量、速度、多様性から生じていると述べました。社内 LLM の開発を検討している企業は、ドキュメント、コラボレーション ツール、コード リポジトリ、および企業の知識と知的財産を保存するその他のツールから抽出された情報にまでデータ品質の取り組みを拡張する必要があります。

「データ ガバナンスは、LLM システムに大量のデータを供給するだけでなく、それを賢明かつ安全に行うという点でも変化しています」と八甲田のデータ ガバナンス責任者である Karen Meppen 氏は述べています。 「重点は、データが大規模であるだけでなく、正確で、理解しやすく、プライバシーを重視し、安全であり、知的財産と公平性に対するリスクと影響を考慮したスマートなものであることを保証することです。」

ビジネス目標とデータの種類に応じて、さまざまなツールを使用してデータ品質を向上できます。

従来のデータ品質ツール: 重複を削除し、データ フィールドを正規化し、ビジネス ルールに対してデータを検証し、異常を検出し、品質メトリックを計算できます。

マスター データ管理ツール (MDM): 組織が複数のデータ ソースを接続し、顧客や製品などのビジネス エンティティの単一の真実のソースを作成できるようにします。

顧客データ プラットフォーム (CDP): 顧客情報を一元管理し、マーケティング、販売、顧客サービス、その他の顧客とのやり取りを可能にするために特別に設計されたツールです。

アップグレードと新しいデータ品質ツールにより、非構造化データ ソースのサポートが改善され、GenAI ユース ケースのデータ品質機能が強化される予定です。

Matillion の CISO である Graeme Cantu-Park 氏からのもう 1 つのヒントは、データ リネージの重要性に焦点を当てたものでした。 「AI では、AI アプリケーションとモデルにデータを供給するデータ パイプラインとデータ リネージをより深く理解するために、ガバナンスの優先順位と実践を根本的に異なる方法で検討する必要があります。」

データ リネージは、データのライフサイクルを明らかにし、データがいつ、どこで、誰によって、なぜ、どのように変更されたかという質問に答えるのに役立ちます。 AI によってデータの範囲と使用事例が拡大するにつれて、セキュリティやその他のリスク管理部門を含む組織内のより多くの人々にとって、データ系統を理解することがより重要になります。

3. データ管理とパイプラインアーキテクチャを確認する

データ ガバナンスのリーダーは、ポリシーとデータ品質に加えて、データ管理とアーキテクチャ機能にも影響力を広げる必要があります。アクティブ データ ガバナンスは、より多くの従業員がデータ、分析、そして AI を活用して業務を遂行し、よりスマートな意思決定を行えるようにするさまざまな機能を提供します。データの保存、アクセス、製品化、カタログ化、文書化の方法はすべて、組織がデータを GenAI ユースケースに迅速かつ容易に、そして安全に拡張するための要素です。 Teradata の最高製品責任者である Hillary Ashton 氏は、最もエキサイティングな AI ユースケースを実装するための次の方法を提案しています。

再利用可能なデータ製品、または慎重にキュレーションされた既知の良好なデータ セットを作成し、組織がデータをより適切に管理し、データに対する信頼を確立できるようにします。

データの重要性を尊重し、異なる環境間でデータを移動することなく、より多くの人が情報にアクセスできるようにします。

強力なガバナンスを備えた AI/ML データ パイプラインなど、スケーラビリティを考慮して設計された AI パイロット プログラムにより、オープンで接続されたエコシステムも実現できます。

データ チームにとって重要なのは、使いやすく、複数のユース ケースをサポートするフレームワークとプラットフォームを特定することです。 「ガバナンス フレームワークはより機敏になり始めており、チームはテクノロジーの進歩のペースに迅速に対応できるようになりました」と、Ensono のゼネラル マネージャー兼副社長である Sean Mahoney 氏は述べています。彼は、データ ガバナンスのリーダーに、次のツールも確認して活用することを推奨しています。

  • データ管理をデータ作成者に委任するデータ グリッド。
  • 生成 AI と LLM に固有のスケーラビリティと複雑さを処理するためのベクトル データベース。
  • データ ガバナンスをより多くのシステムに拡張するリアルタイム監視ツール。

考慮すべきもう 1 つの問題は、データのガバナンス、管理、およびアーキテクチャが、データ ストレージに関する世界的な規制を認識する必要があることです。 EDBのデ・フリース氏は、「企業は、規制の厳しいデータを地域内に留め、規制の緩いデータを世界中に分散してAIプラットフォームにデータを供給する際の柔軟性を高めることで、データガバナンスの実践を改善するためにグローバルに分散されたデータベースを実装すべきだ」と推奨している。

4. GenAIワークフローへのデータガバナンスの拡張

データ ガバナンス機能では、GenAI ツールと LLM の使用に関するポリシーとベスト プラクティスも考慮する必要があります。

たとえば、この記事の冒頭では、応答が GenAI ソースからのものであることを読者がわかるように、ChatGPT を明示的に参照しました。適切なデータ ガバナンスを実現するには、透明性を高める手順、使用が許可されているツール、データ プライバシーの問題を最小限に抑える方法について従業員を教育する必要があります。 「私が見ている最も重要なことは、プライバシーと信頼性を維持しながら、データを正確に活用し、共有し、そこから学ぶ方法が増えていることです」と、ForethinkのCEO、デオン・ニコラス氏は語った。

「たとえば、常にソースを引用する Perplexity のような LLM ベースの検索エンジンや、LLM にデータを送受信する前に PIL をクリーンアップして編集できる Private AI のようなデータ編集テクノロジーなどがあります。」

データ ガバナンスのリーダーが検討すべき積極的なステップは、従業員がすぐに使用できるユースケースを文書化し、組織全体で共有できる即時ライブラリを作成することです。この分野は、多くのデータ ガバナンス チームがデータ カタログとデータ ディクショナリの維持に関してすでに行っている知識管理プラクティスを拡張します。 「LLM のトレーニング コーパスは、通常ナレッジ グラフに保存される簡潔で慎重に処理されたコンテンツと、通常ヒント ライブラリの形式で保存される専門知識で構成されています」と、RelationalAI のリサーチ ML 担当副社長である Nikolaos Vasiloglou 氏は述べています。「ナレッジ グラフについては適切なガバナンス プラクティスがありますが、後者をどのようにガバナンスするかは明らかではありません。」

私はスパイダーマン映画で有名になった「大いなる力には大いなる責任が伴う」という名言が好きです。GenAI 機能は急速に発展していますが、問題はデータ ガバナンス チームがそれを支持するかどうかです。

参考リンク: https://www.infoworld.com/article/3713005/how-data-governance-must-evolve-to-meet-the-generative-ai-challenge.html


<<:  人工知能によるデータ管理の変革

>>:  OpenAI: ニューヨークタイムズは私を攻撃するためにハッカーを雇った

推薦する

Facebookは色を表現するために通信する2つのニューラルネットワークを作成

色をどのように表現するか考えたことはありますか?最新の研究によると、人間は個別の記号を使用して領域の...

今後5年間で働くのに適した5つの職種

「中国製造2025」という言葉を聞いたことがありますか。これは、中国が2025年までに産業の徹底的な...

...

...

...

...

Github を席巻: アルゴリズム ビジュアライザーはアルゴリズムを視覚化し、アルゴリズムの学習を容易にします

[[327717]] 今日はオープンソース プロジェクトを紹介します。このプロジェクトの素晴らしい...

マイクロソフト、マルチモーダルアプローチでAIの理解能力を向上させるプロジェクトRumiを実証

新興技術のデジタル時代において、大規模言語モデル (LLM) は、人間社会と文化の多くの側面に革命を...

...

データセキュリティリスクのため、米国宇宙軍はChatGPTなどの人工知能ツールの使用を一時停止

ロイターが確認したメモによると、10月12日、米宇宙軍はデータセキュリティに関する懸念から、職員によ...

高度な数学の問題解決ツール:写真を撮ってアップロードすると答えがわかる。この中国の学生は驚くべきAIを作った

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

PaddlePaddleディープラーニングオープンソースプラットフォーム:中国のAI船が皆の漕ぎを待っている

[51CTO.com オリジナル記事]序文: ちょっとした歴史10年前、私が学校で上司と一緒に画像認...

海外メディア:ニューラリンクの「人間の脳チップ」を埋め込むために何千人もの人が列をなしており、2030年には手術件数が2万2000件を超える見込み

11月8日、米国現地時間の火曜日、著名な伝記作家アシュリー・ヴァンス氏が、イーロン・マスク氏の脳コン...

機械学習による建物のエネルギー効率の向上

エネルギー効率などの複雑な建物の問題を、人間の介入なしに解決するにはどうすればよいでしょうか。建物の...

2022年、AIネットワーク管理が信頼を高める

米国で売上高最大のソーセージブランドであるジョンソンビルソーセージのグローバルネットワークオペレーシ...