機械学習の改善: ナレッジグラフがデータに深い意味を与える方法

機械学習の改善: ナレッジグラフがデータに深い意味を与える方法

コンピレーション | ブガッティ

編集者 | 薛燕澤

[51CTO.com クイック翻訳]多くの企業は、機械学習システムを導入する際に時代遅れのデータ管理方法を使用していますが、これには 2 つの悪影響があります。1 つ目は、時代遅れのデータ複製方法により最終的な洞察結果が遅れること、2 つ目は、データに統一性とコンテキストが欠けていることです。

過度のデータ重複とその結果生じる「二次的影響」により、ほとんどの組織のデータ サイエンティストにとって大きな非効率性と無駄が生じています。 IDC によれば、昨年は 60ZB を超えるデータが生成され、年平均成長率は 23% に達し、2025 年まで続くと予想されています。さらに悪いことに、一意のデータと重複データの比率は 1:10 であり、ほとんどの組織のデータ管理アプローチはデータのコピーに基づいていることを意味します。

企業が機械学習モデルを作成する場合、通常は関連するデータをさまざまなデータソースからコピーして分割します。モデルは通常、データの 20% をトレーニングに使用し、残りの 80% はテスト用に予約されます。データのクリーニング、特徴量エンジニアリング、モデル評価には 6 か月以上かかる場合があり、その過程でデータが古くなり、洞察を得るまでの時間が遅れ、データの結果に影響を及ぼします。

データ管理に対する従来の時代遅れのアプローチによる 2 つ目の影響は、洞察の質の低下です。この影響は、古いデータを使用してモデルを構築することだけでなく、関係性の認識が不十分であること、垂直方向のデータ サイロが分断されていること、コンテキスト情報が不十分であること、リレーショナル データ管理テクノロジのスキーマの制限などにも起因します。

最新のデータ構造を使用してナレッジグラフを適切に実装すると、これらのデータ管理の問題を修正し、機械学習の価値を高めることができます。ナレッジグラフを活用したデータ構造にデータ仮想化を導入することで、データ サイエンティストは時間とリソースを無駄にすることなく、データに機械学習を導入できるようになります。

さらに、グラフ モデルが持つ固有の柔軟性と相互関係を活用する能力により、改善された特徴エンジニアリング、根本原因分析、グラフ分析などの機能が提供され、組織は機械学習用のデータを非常に簡単に準備できるようになります。この機能は、データ管理と人工知能が融合する今後 20 年間で、ナレッジ グラフがデータ管理構造の主要要素となることにも役立ちます。つまり、AI がナレッジ グラフを支援するのと同じくらい、ナレッジ グラフも AI を支援することになります。

データサイエンティストには戦略的なデータ管理が必要

長期的な機械学習の導入に取り組むデータ組織が増えています。データ サイロまたはデータ レイク内のデータ形式、スキーマ、用語が異なると、このトレーニング データを必要とする機械学習の取り組みが遅れる可能性があります。コンテキストとセマンティック注釈が不足しているため、組織がデータの意味と特定のモデルの目的を理解することが困難になります。データに十分なコンテキストがある場合でも、この情報が持続することはほとんどないため、組織は後続のプロジェクトを最初からやり直す必要があります。 IoT デバイスによって収集された情報など、動きの速いデータの場合、この異なるデータを複製するために必要な数か月のトレーニングはさらに困難になります。組織は、この障害に対処するために、新しいデータを再度コピーし、モデルの機能を損なう時間のかかるプロセスを再開せざるを得なくなります。

推奨されるアプローチは、データをサイロにコピーするのではなく、データ構造レイヤーでモデルをトレーニングすることです。組織はデータを移動することなく、トレーニング データセットとテスト データセットを簡単に作成できます。たとえば、組織はデータのランダムな 20% のサンプルを指定し、クエリを使用して機能を抽出し、このナレッジ グラフ ベースのデータ仮想化アプローチを通じてトレーニング データセットを提供することもできます。このアプローチにより、データ管理と機械学習の関係が明確になり、洞察が加速されるとともに、より新しいデータを使用してモデルをトレーニングできるという利点も得られます。

高品質な機械学習の洞察を得る

ナレッジ グラフは、リレーショナル アプローチやその他のアプローチよりも、企業データを理解するための、より豊富で強固な基盤を提供します。グラフがデータを保存する方法であるノードとエッジ間のコンテキスト理解と関係検出を提供します。この機能は、企業固有の用語を階層的な語彙または分類法のセットに標準化するセマンティック グラフ データ モデルによって大幅に強化されます。したがって、データ サイエンティストは、データが何を意味するのか、そしてそれが機械学習などのユース ケースとどのように関連しているのかを本質的に理解しています。セマンティック グラフ データ モデルは、スキーマ レベルでデータを調整し、概念やビジネス カテゴリに関するインテリジェントな推論を提供し、用語や同義語に関する従来の問題を回避しながら、エンタープライズ データの完全なビューを提供します。

これらの機能は、利用可能なデータから非常に微妙で文脈的な洞察を生成しながら、機械学習用のデータの準備に必要な時間を短縮するために不可欠です。このアプローチのもう 1 つの利点は、グラフのアルゴリズムが機械学習と密接に関連していることです。これらにより、データ サイエンティストは、機械学習用のグラフ形式でトレーニング データを準備するのに適したクラスタリング、次元削減、主成分分析 (PCA)、教師なし学習に関連する特定の手法を最大限に活用できるようになります。これらおよびその他の技術 (グラフ埋め込みなど) により、特徴生成プロセスを高速化したり、データ準備の影響分析を提供したりできます。

データ管理と知識管理の融合

機械学習におけるナレッジグラフの全体的な有用性は、データ管理とナレッジ管理の相補的な性質を示しています。著名な Google 研究教授の Peter Norvig 氏の言葉を引用すると、十分なデータがあれば、複雑なアルゴリズムは必要ありません。つまり、ナレッジ グラフとデータ仮想化によってサポートされる統合データ構造でのデータ管理とナレッジ管理の融合により、より豊富で高品質なデータが提供され、組織は完璧なアルゴリズムがない場合でも機械学習を最適化できるようになります。

たとえば、組織が顧客の購買習慣に関する十分なデータを持っている場合、どの顧客が新製品に興味を持つかを予測するために複雑なアルゴリズムは必要ありません。データ管理とナレッジ管理を統合することで、組織は強化されたインテリジェントなアルゴリズムとモデルを利用できるようになります。これにより、意思決定のための強力な情報基盤が提供され、AI の利点が最大限に引き出されます。

原題: 機械学習の改善: ナレッジグラフがデータに深い意味をもたらす方法、著者: Kendall Clark

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  自動運転制御プロセスにおいて解決すべき規制上の問題は何ですか?

>>:  一貫性ハッシュアルゴリズムの使い方がわからない場合は、履歴書に負荷分散に取り組んだと書かないでください。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

住宅建設はよりスマートになる

スマートホーム革命はここしばらく本格的に始まっています。住宅所有者はデータと IoT テクノロジーを...

世界の AI 人材レポートが発表されました: 清華大学が 3 位、北京大学が 6 位にランクイン!シリコンバレーが40万人を解雇、プログラマーの面接は12回

先ほど、グローバル AI 人材レポートが発表されました。世界のトップクラスの AI 人材のうち、約半...

顔認識はどのように実現されるのでしょうか? コンピューターはカメラを通じてどのように私たちの身元を識別するのでしょうか?

携帯電話を使って顔をスキャンして支払いをするとき、会社の入退室管理を通過するとき、あるいは道路を運転...

...

人工知能は人々の日常の職業生活をどのように変えているのでしょうか?

[[280560]]世界が急速に発展する中、専門家は生産性と仕事の効率性の向上に努めなければなりま...

清華大学とアリババDAMOアカデミーが開発した業界初の少数サンプルNERデータセット

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

自動運転マシンビジョンの4つの基本タスクを理解するための1万語

ディープラーニングは、機械学習の中で最も急速に成長し、最もエキサイティングな分野の 1 つになりまし...

...

報告書によると、プログラマーの70%がプログラミングにさまざまなAIツールを使用している。

6月14日、プログラミングに関する質問と回答のウェブサイト「Stack Overflow」が発表し...

世界AIトップ100リストが発表、中国企業6社が選出

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Web 2.0 のソーシャル関連性ランキング アルゴリズムの探究

FriendFeed は最近検索機能を開始しましたが、Facebook もすぐに追随すると思います。...

6つの新しいことに焦点を当て、新境地を開拓し、プロジェクトは変革を促進するための王様です。2020年中国(太原)人工知能会議が開催されました

2002年から2012年までの石炭の「黄金の10年」を経験した後、「古い工業基地」である山西省太原市...

...

...

「段階的に考える」だけでは不十分です。モデルを「より多くのステップで考える」ようにすれば、より有用になります。

今日では、大規模言語モデル (LLM) とその高度なヒント戦略の出現により、特に古典的な NLP タ...