GenAI が近づくにつれて、データガバナンスはどのように進化するべきでしょうか?

著者 | アイザック・サコリック

編集者 | ヤン・ジェン

制作：51CTO テクノロジースタック（WeChat ID：blog）

データガバナンスは、データのセキュリティ、管理、品質、カタログ作成など、さまざまな分野をカバーします。この実践では、使用ポリシーの定義、マスターデータソースの作成、データセットの分析、辞書の文書化、およびデータライフサイクルの監視が必要です。組織モデルでは通常、戦略を推進する最高データ責任者、データセットのポリシーを設定するデータ所有者、およびデータ品質の向上を担当するデータ管理者の役割が定義されます。

「データガバナンスはデータ整合性の重要な要素であり、組織が重要なデータを簡単に発見、理解、活用して、正確なレポート作成と情報に基づいた意思決定を行えるようにします」と Precisly の CTO である Tendü Yogurtçu 博士は述べています。「データの意味、系統、影響についての理解が得られるため、企業はコンプライアンスを維持し、信頼できるデータに基づいて AI モデルを構築して信頼できる結果を得ることができます。」

ヨーグルトチュ氏は、データガバナンスはかつてはコンプライアンスに重点を置いた技術的なタスクだったと述べた。「AIの導入が進むにつれて、データは最も重要な企業資産となり、データガバナンスは企業全体で優先されるべきである」と彼女は述べた。

GenAI を実験したり、大規模言語モデル (LLM) を使用してアプリケーションを構築したりする多くの組織では、データガバナンスの責任が大きくなり、AI ツールを使用する従業員のリスクが大きくなり、非構造化データの範囲が広がります。 AI ツールと機能の構築に内在する機会とリスクに対処するために、データガバナンスをどのように進化させる必要があるかについて、複数の専門家に相談しました。

GenAI 時代において、組織はデータの取得と使用において新たなリスク、課題、機会に直面します。ここでは、データガバナンスチームがこの状況に対応できる 4 つの方法を紹介します。

1. GenAIツールとLLMのデータポリシーを確認する

データガバナンス部門は、データカタログを監視し、データ使用ポリシーを伝えて、従業員が集中管理されたデータセットにアクセスし、それを使用して機械学習モデル、ダッシュボード、その他の分析ツールを構築できるようにします。これらの部門は現在、エンタープライズデータソースを LLM およびオープン GenAI ツールで使用できるかどうか、またどのように使用できるかを決定するためのポリシーを更新しています。開発者とデータサイエンティストは、これらのポリシーを確認し、データセットを使用して GenAI 実験をサポートするかどうかについてデータ所有者に相談する必要があります。

「生成AIはより複雑なデータをもたらすため、組織はこれらのモデルのトレーニングに使用されるコンテンツを管理および保護するために、優れたデータガバナンスとプライバシーポリシーを導入する必要があります」と、Egnyteの共同創設者兼最高セキュリティ責任者であるクリス・ラヒリ氏は述べています。「組織は、これらの AI ツールによってどのようなデータが使用されているかを特に意識する必要があります。それが OpenAI や PaLM などのサードパーティのデータであるか、企業が内部で使用する可能性のある内部 LLM であるかは関係ありません。」

プライバシー、データ保護、許容される使用に関する GenAI ポリシーを確認します。多くの組織では、データセットを GenAI ユースケースに使用する前に、リクエストを送信してデータ所有者が承認する必要があります。 GDPR、CCPA、PCI、HIPAA、またはその他のデータコンプライアンス標準を満たす必要があるデータセットを使用する前に、リスク、コンプライアンス、法務部門に相談してください。

データポリシーでは、サードパーティのデータソースを使用する場合、データのサプライチェーンと責任も考慮する必要があります。「ベンダーは、特定のゾーン内で保護されているデータに関連するセキュリティインシデントが発生した場合、特にそのデータがAI/MLプラットフォームで使用されることを意図している場合、状況を適切に緩和するために自社と顧客の責任を明確にする必要があります」とEDBの最高製品エンジニアリング責任者、ジョゼフ・デ・フリースは述べています。

GenAI の機会に興味を持っている人にとって、まず組織のデータプライバシー、セキュリティ、コンプライアンスポリシーを理解することが重要です。

2. データ品質の改善を加速する

Attacama、Collibra、Experian、IBM、Informatica、Precisely、SAP、SAS、Talend など、多くの企業がデータ品質ソリューションを提供しています。世界のデータ品質ツール市場規模は2022年に40億米ドルを超え、年間成長率は17.7%になると予想されています。現在、多くの企業が AI ツールや LLM を実験しているので、この成長はさらに高くなると予想しています。

「AI の性能は入力するデータによって決まるため、AI の使用における課題の多くはデータの品質に関連しています」と、Piwik Pro の COO である Mateusz Krempa 氏は述べています。「データ品質が低いと、誤解を招いたり誤った洞察をもたらしたりして、結果に重大な影響を及ぼす可能性があります。」

クレンパ氏は、特にLLMが組織の非構造化データソースを活用するようになった現在、データ品質の課題はビッグデータの量、速度、多様性から生じていると述べました。社内 LLM の開発を検討している企業は、ドキュメント、コラボレーションツール、コードリポジトリ、および企業の知識と知的財産を保存するその他のツールから抽出された情報にまでデータ品質の取り組みを拡張する必要があります。

「データガバナンスは、LLM システムに大量のデータを供給するだけでなく、それを賢明かつ安全に行うという点でも変化しています」と八甲田のデータガバナンス責任者である Karen Meppen 氏は述べています。「重点は、データが大規模であるだけでなく、正確で、理解しやすく、プライバシーを重視し、安全であり、知的財産と公平性に対するリスクと影響を考慮したスマートなものであることを保証することです。」

ビジネス目標とデータの種類に応じて、さまざまなツールを使用してデータ品質を向上できます。

従来のデータ品質ツール: 重複を削除し、データフィールドを正規化し、ビジネスルールに対してデータを検証し、異常を検出し、品質メトリックを計算できます。

マスターデータ管理ツール (MDM): 組織が複数のデータソースを接続し、顧客や製品などのビジネスエンティティの単一の真実のソースを作成できるようにします。

顧客データプラットフォーム (CDP): 顧客情報を一元管理し、マーケティング、販売、顧客サービス、その他の顧客とのやり取りを可能にするために特別に設計されたツールです。

アップグレードと新しいデータ品質ツールにより、非構造化データソースのサポートが改善され、GenAI ユースケースのデータ品質機能が強化される予定です。

Matillion の CISO である Graeme Cantu-Park 氏からのもう 1 つのヒントは、データリネージの重要性に焦点を当てたものでした。「AI では、AI アプリケーションとモデルにデータを供給するデータパイプラインとデータリネージをより深く理解するために、ガバナンスの優先順位と実践を根本的に異なる方法で検討する必要があります。」

データリネージは、データのライフサイクルを明らかにし、データがいつ、どこで、誰によって、なぜ、どのように変更されたかという質問に答えるのに役立ちます。 AI によってデータの範囲と使用事例が拡大するにつれて、セキュリティやその他のリスク管理部門を含む組織内のより多くの人々にとって、データ系統を理解することがより重要になります。

3. データ管理とパイプラインアーキテクチャを確認する

データガバナンスのリーダーは、ポリシーとデータ品質に加えて、データ管理とアーキテクチャ機能にも影響力を広げる必要があります。アクティブデータガバナンスは、より多くの従業員がデータ、分析、そして AI を活用して業務を遂行し、よりスマートな意思決定を行えるようにするさまざまな機能を提供します。データの保存、アクセス、製品化、カタログ化、文書化の方法はすべて、組織がデータを GenAI ユースケースに迅速かつ容易に、そして安全に拡張するための要素です。 Teradata の最高製品責任者である Hillary Ashton 氏は、最もエキサイティングな AI ユースケースを実装するための次の方法を提案しています。

再利用可能なデータ製品、または慎重にキュレーションされた既知の良好なデータセットを作成し、組織がデータをより適切に管理し、データに対する信頼を確立できるようにします。

データの重要性を尊重し、異なる環境間でデータを移動することなく、より多くの人が情報にアクセスできるようにします。

強力なガバナンスを備えた AI/ML データパイプラインなど、スケーラビリティを考慮して設計された AI パイロットプログラムにより、オープンで接続されたエコシステムも実現できます。

データチームにとって重要なのは、使いやすく、複数のユースケースをサポートするフレームワークとプラットフォームを特定することです。「ガバナンスフレームワークはより機敏になり始めており、チームはテクノロジーの進歩のペースに迅速に対応できるようになりました」と、Ensono のゼネラルマネージャー兼副社長である Sean Mahoney 氏は述べています。彼は、データガバナンスのリーダーに、次のツールも確認して活用することを推奨しています。

データ管理をデータ作成者に委任するデータグリッド。
生成 AI と LLM に固有のスケーラビリティと複雑さを処理するためのベクトルデータベース。
データガバナンスをより多くのシステムに拡張するリアルタイム監視ツール。

考慮すべきもう 1 つの問題は、データのガバナンス、管理、およびアーキテクチャが、データストレージに関する世界的な規制を認識する必要があることです。 EDBのデ・フリース氏は、「企業は、規制の厳しいデータを地域内に留め、規制の緩いデータを世界中に分散してAIプラットフォームにデータを供給する際の柔軟性を高めることで、データガバナンスの実践を改善するためにグローバルに分散されたデータベースを実装すべきだ」と推奨している。

4. GenAIワークフローへのデータガバナンスの拡張

データガバナンス機能では、GenAI ツールと LLM の使用に関するポリシーとベストプラクティスも考慮する必要があります。

たとえば、この記事の冒頭では、応答が GenAI ソースからのものであることを読者がわかるように、ChatGPT を明示的に参照しました。適切なデータガバナンスを実現するには、透明性を高める手順、使用が許可されているツール、データプライバシーの問題を最小限に抑える方法について従業員を教育する必要があります。「私が見ている最も重要なことは、プライバシーと信頼性を維持しながら、データを正確に活用し、共有し、そこから学ぶ方法が増えていることです」と、ForethinkのCEO、デオン・ニコラス氏は語った。

「たとえば、常にソースを引用する Perplexity のような LLM ベースの検索エンジンや、LLM にデータを送受信する前に PIL をクリーンアップして編集できる Private AI のようなデータ編集テクノロジーなどがあります。」

データガバナンスのリーダーが検討すべき積極的なステップは、従業員がすぐに使用できるユースケースを文書化し、組織全体で共有できる即時ライブラリを作成することです。この分野は、多くのデータガバナンスチームがデータカタログとデータディクショナリの維持に関してすでに行っている知識管理プラクティスを拡張します。「LLM のトレーニングコーパスは、通常ナレッジグラフに保存される簡潔で慎重に処理されたコンテンツと、通常ヒントライブラリの形式で保存される専門知識で構成されています」と、RelationalAI のリサーチ ML 担当副社長である Nikolaos Vasiloglou 氏は述べています。「ナレッジグラフについては適切なガバナンスプラクティスがありますが、後者をどのようにガバナンスするかは明らかではありません。」

私はスパイダーマン映画で有名になった「大いなる力には大いなる責任が伴う」という名言が好きです。GenAI 機能は急速に発展していますが、問題はデータガバナンスチームがそれを支持するかどうかです。

参考リンク: https://www.infoworld.com/article/3713005/how-data-governance-must-evolve-to-meet-the-generative-ai-challenge.html

<<: 人工知能によるデータ管理の変革

>>: OpenAI: ニューヨークタイムズは私を攻撃するためにハッカーを雇った

ブログ

GenAI が近づくにつれて、データガバナンスはどのように進化するべきでしょうか?

1. GenAIツールとLLMのデータポリシーを確認する

2. データ品質の改善を加速する

3. データ管理とパイプラインアーキテクチャを確認する

4. GenAIワークフローへのデータガバナンスの拡張

データ分析に人工知能を取り入れる方法

インテルは新しい小さな「スピン量子ビット」チップをテスト中

2021年のMLとNLPの学術統計：Googleが1位、強化学習の専門家Sergey Levineが1位に

人工知能が習得する必要がある知識ポイントは何ですか?どんな本を読めばいいでしょうか？非常に詳細なチュートリアル

Python でよく使われるアルゴリズム - 貪欲アルゴリズム (別名 greedy algorithm) をご存知ですか?

マルチモーダル大規模モデルの最も包括的なレビューはここにあります!マイクロソフトの研究者7人が5つの主要トピックについて協力し、119ページの文書を公開した。

注目の開発スキル5つについて学ぶ

推薦する

貧弱なメモ帳でもマイクロソフトのAIの影響を受けないわけではない

会話型 AI は FMCG 業界でどのように導入されていますか?

実践的な NLP 問題: LSTM (RNN) と Transformer モデルに基づく

インテリジェントな意思決定理論: AI 主導の意思決定企業の創出

ガートナーは、世界の人工知能ソフトウェア市場が2022年に620億ドルに達すると予測している。

「顔支払い」が破綻？誰かがジャック・マーの写真を使って実験したところ、画面に4つの大きな文字がポップアップしました。

14,000元の費用でディープラーニングサーバーを自分で構築するにはどうすればいいでしょうか?

2億IoTエコシステム、人民教育新聞とAI教育で協力、天猫精霊プラットフォームレイアウトが収穫期に入る

知識経済は死んだ！ AIが生み出す「直感経済」の新時代！

追加データなしで、ImageNetで初めて87.1%の精度を達成した。Yan ShuichengのチームはVOLOをオープンソース化した。