機械学習の改善: ナレッジグラフがデータに深い意味を与える方法

コンピレーション | ブガッティ

編集者 | 薛燕澤

[51CTO.com クイック翻訳]多くの企業は、機械学習システムを導入する際に時代遅れのデータ管理方法を使用していますが、これには 2 つの悪影響があります。1 つ目は、時代遅れのデータ複製方法により最終的な洞察結果が遅れること、2 つ目は、データに統一性とコンテキストが欠けていることです。

過度のデータ重複とその結果生じる「二次的影響」により、ほとんどの組織のデータサイエンティストにとって大きな非効率性と無駄が生じています。 IDC によれば、昨年は 60ZB を超えるデータが生成され、年平均成長率は 23% に達し、2025 年まで続くと予想されています。さらに悪いことに、一意のデータと重複データの比率は 1:10 であり、ほとんどの組織のデータ管理アプローチはデータのコピーに基づいていることを意味します。

企業が機械学習モデルを作成する場合、通常は関連するデータをさまざまなデータソースからコピーして分割します。モデルは通常、データの 20% をトレーニングに使用し、残りの 80% はテスト用に予約されます。データのクリーニング、特徴量エンジニアリング、モデル評価には 6 か月以上かかる場合があり、その過程でデータが古くなり、洞察を得るまでの時間が遅れ、データの結果に影響を及ぼします。

データ管理に対する従来の時代遅れのアプローチによる 2 つ目の影響は、洞察の質の低下です。この影響は、古いデータを使用してモデルを構築することだけでなく、関係性の認識が不十分であること、垂直方向のデータサイロが分断されていること、コンテキスト情報が不十分であること、リレーショナルデータ管理テクノロジのスキーマの制限などにも起因します。

最新のデータ構造を使用してナレッジグラフを適切に実装すると、これらのデータ管理の問題を修正し、機械学習の価値を高めることができます。ナレッジグラフを活用したデータ構造にデータ仮想化を導入することで、データサイエンティストは時間とリソースを無駄にすることなく、データに機械学習を導入できるようになります。

さらに、グラフモデルが持つ固有の柔軟性と相互関係を活用する能力により、改善された特徴エンジニアリング、根本原因分析、グラフ分析などの機能が提供され、組織は機械学習用のデータを非常に簡単に準備できるようになります。この機能は、データ管理と人工知能が融合する今後 20 年間で、ナレッジグラフがデータ管理構造の主要要素となることにも役立ちます。つまり、AI がナレッジグラフを支援するのと同じくらい、ナレッジグラフも AI を支援することになります。

データサイエンティストには戦略的なデータ管理が必要

長期的な機械学習の導入に取り組むデータ組織が増えています。データサイロまたはデータレイク内のデータ形式、スキーマ、用語が異なると、このトレーニングデータを必要とする機械学習の取り組みが遅れる可能性があります。コンテキストとセマンティック注釈が不足しているため、組織がデータの意味と特定のモデルの目的を理解することが困難になります。データに十分なコンテキストがある場合でも、この情報が持続することはほとんどないため、組織は後続のプロジェクトを最初からやり直す必要があります。 IoT デバイスによって収集された情報など、動きの速いデータの場合、この異なるデータを複製するために必要な数か月のトレーニングはさらに困難になります。組織は、この障害に対処するために、新しいデータを再度コピーし、モデルの機能を損なう時間のかかるプロセスを再開せざるを得なくなります。

推奨されるアプローチは、データをサイロにコピーするのではなく、データ構造レイヤーでモデルをトレーニングすることです。組織はデータを移動することなく、トレーニングデータセットとテストデータセットを簡単に作成できます。たとえば、組織はデータのランダムな 20% のサンプルを指定し、クエリを使用して機能を抽出し、このナレッジグラフベースのデータ仮想化アプローチを通じてトレーニングデータセットを提供することもできます。このアプローチにより、データ管理と機械学習の関係が明確になり、洞察が加速されるとともに、より新しいデータを使用してモデルをトレーニングできるという利点も得られます。

高品質な機械学習の洞察を得る

ナレッジグラフは、リレーショナルアプローチやその他のアプローチよりも、企業データを理解するための、より豊富で強固な基盤を提供します。グラフがデータを保存する方法であるノードとエッジ間のコンテキスト理解と関係検出を提供します。この機能は、企業固有の用語を階層的な語彙または分類法のセットに標準化するセマンティックグラフデータモデルによって大幅に強化されます。したがって、データサイエンティストは、データが何を意味するのか、そしてそれが機械学習などのユースケースとどのように関連しているのかを本質的に理解しています。セマンティックグラフデータモデルは、スキーマレベルでデータを調整し、概念やビジネスカテゴリに関するインテリジェントな推論を提供し、用語や同義語に関する従来の問題を回避しながら、エンタープライズデータの完全なビューを提供します。

これらの機能は、利用可能なデータから非常に微妙で文脈的な洞察を生成しながら、機械学習用のデータの準備に必要な時間を短縮するために不可欠です。このアプローチのもう 1 つの利点は、グラフのアルゴリズムが機械学習と密接に関連していることです。これらにより、データサイエンティストは、機械学習用のグラフ形式でトレーニングデータを準備するのに適したクラスタリング、次元削減、主成分分析 (PCA)、教師なし学習に関連する特定の手法を最大限に活用できるようになります。これらおよびその他の技術 (グラフ埋め込みなど) により、特徴生成プロセスを高速化したり、データ準備の影響分析を提供したりできます。

データ管理と知識管理の融合

機械学習におけるナレッジグラフの全体的な有用性は、データ管理とナレッジ管理の相補的な性質を示しています。著名な Google 研究教授の Peter Norvig 氏の言葉を引用すると、十分なデータがあれば、複雑なアルゴリズムは必要ありません。つまり、ナレッジグラフとデータ仮想化によってサポートされる統合データ構造でのデータ管理とナレッジ管理の融合により、より豊富で高品質なデータが提供され、組織は完璧なアルゴリズムがない場合でも機械学習を最適化できるようになります。

たとえば、組織が顧客の購買習慣に関する十分なデータを持っている場合、どの顧客が新製品に興味を持つかを予測するために複雑なアルゴリズムは必要ありません。データ管理とナレッジ管理を統合することで、組織は強化されたインテリジェントなアルゴリズムとモデルを利用できるようになります。これにより、意思決定のための強力な情報基盤が提供され、AI の利点が最大限に引き出されます。

原題: 機械学習の改善: ナレッジグラフがデータに深い意味をもたらす方法、著者: Kendall Clark

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: 自動運転制御プロセスにおいて解決すべき規制上の問題は何ですか?

>>: 一貫性ハッシュアルゴリズムの使い方がわからない場合は、履歴書に負荷分散に取り組んだと書かないでください。