コンピレーション | ブガッティ 編集者 | 薛燕澤 [51CTO.com クイック翻訳]多くの企業は、機械学習システムを導入する際に時代遅れのデータ管理方法を使用していますが、これには 2 つの悪影響があります。1 つ目は、時代遅れのデータ複製方法により最終的な洞察結果が遅れること、2 つ目は、データに統一性とコンテキストが欠けていることです。 過度のデータ重複とその結果生じる「二次的影響」により、ほとんどの組織のデータ サイエンティストにとって大きな非効率性と無駄が生じています。 IDC によれば、昨年は 60ZB を超えるデータが生成され、年平均成長率は 23% に達し、2025 年まで続くと予想されています。さらに悪いことに、一意のデータと重複データの比率は 1:10 であり、ほとんどの組織のデータ管理アプローチはデータのコピーに基づいていることを意味します。 企業が機械学習モデルを作成する場合、通常は関連するデータをさまざまなデータソースからコピーして分割します。モデルは通常、データの 20% をトレーニングに使用し、残りの 80% はテスト用に予約されます。データのクリーニング、特徴量エンジニアリング、モデル評価には 6 か月以上かかる場合があり、その過程でデータが古くなり、洞察を得るまでの時間が遅れ、データの結果に影響を及ぼします。 データ管理に対する従来の時代遅れのアプローチによる 2 つ目の影響は、洞察の質の低下です。この影響は、古いデータを使用してモデルを構築することだけでなく、関係性の認識が不十分であること、垂直方向のデータ サイロが分断されていること、コンテキスト情報が不十分であること、リレーショナル データ管理テクノロジのスキーマの制限などにも起因します。 最新のデータ構造を使用してナレッジグラフを適切に実装すると、これらのデータ管理の問題を修正し、機械学習の価値を高めることができます。ナレッジグラフを活用したデータ構造にデータ仮想化を導入することで、データ サイエンティストは時間とリソースを無駄にすることなく、データに機械学習を導入できるようになります。 さらに、グラフ モデルが持つ固有の柔軟性と相互関係を活用する能力により、改善された特徴エンジニアリング、根本原因分析、グラフ分析などの機能が提供され、組織は機械学習用のデータを非常に簡単に準備できるようになります。この機能は、データ管理と人工知能が融合する今後 20 年間で、ナレッジ グラフがデータ管理構造の主要要素となることにも役立ちます。つまり、AI がナレッジ グラフを支援するのと同じくらい、ナレッジ グラフも AI を支援することになります。 データサイエンティストには戦略的なデータ管理が必要長期的な機械学習の導入に取り組むデータ組織が増えています。データ サイロまたはデータ レイク内のデータ形式、スキーマ、用語が異なると、このトレーニング データを必要とする機械学習の取り組みが遅れる可能性があります。コンテキストとセマンティック注釈が不足しているため、組織がデータの意味と特定のモデルの目的を理解することが困難になります。データに十分なコンテキストがある場合でも、この情報が持続することはほとんどないため、組織は後続のプロジェクトを最初からやり直す必要があります。 IoT デバイスによって収集された情報など、動きの速いデータの場合、この異なるデータを複製するために必要な数か月のトレーニングはさらに困難になります。組織は、この障害に対処するために、新しいデータを再度コピーし、モデルの機能を損なう時間のかかるプロセスを再開せざるを得なくなります。 推奨されるアプローチは、データをサイロにコピーするのではなく、データ構造レイヤーでモデルをトレーニングすることです。組織はデータを移動することなく、トレーニング データセットとテスト データセットを簡単に作成できます。たとえば、組織はデータのランダムな 20% のサンプルを指定し、クエリを使用して機能を抽出し、このナレッジ グラフ ベースのデータ仮想化アプローチを通じてトレーニング データセットを提供することもできます。このアプローチにより、データ管理と機械学習の関係が明確になり、洞察が加速されるとともに、より新しいデータを使用してモデルをトレーニングできるという利点も得られます。 高品質な機械学習の洞察を得るナレッジ グラフは、リレーショナル アプローチやその他のアプローチよりも、企業データを理解するための、より豊富で強固な基盤を提供します。グラフがデータを保存する方法であるノードとエッジ間のコンテキスト理解と関係検出を提供します。この機能は、企業固有の用語を階層的な語彙または分類法のセットに標準化するセマンティック グラフ データ モデルによって大幅に強化されます。したがって、データ サイエンティストは、データが何を意味するのか、そしてそれが機械学習などのユース ケースとどのように関連しているのかを本質的に理解しています。セマンティック グラフ データ モデルは、スキーマ レベルでデータを調整し、概念やビジネス カテゴリに関するインテリジェントな推論を提供し、用語や同義語に関する従来の問題を回避しながら、エンタープライズ データの完全なビューを提供します。 これらの機能は、利用可能なデータから非常に微妙で文脈的な洞察を生成しながら、機械学習用のデータの準備に必要な時間を短縮するために不可欠です。このアプローチのもう 1 つの利点は、グラフのアルゴリズムが機械学習と密接に関連していることです。これらにより、データ サイエンティストは、機械学習用のグラフ形式でトレーニング データを準備するのに適したクラスタリング、次元削減、主成分分析 (PCA)、教師なし学習に関連する特定の手法を最大限に活用できるようになります。これらおよびその他の技術 (グラフ埋め込みなど) により、特徴生成プロセスを高速化したり、データ準備の影響分析を提供したりできます。 データ管理と知識管理の融合機械学習におけるナレッジグラフの全体的な有用性は、データ管理とナレッジ管理の相補的な性質を示しています。著名な Google 研究教授の Peter Norvig 氏の言葉を引用すると、十分なデータがあれば、複雑なアルゴリズムは必要ありません。つまり、ナレッジ グラフとデータ仮想化によってサポートされる統合データ構造でのデータ管理とナレッジ管理の融合により、より豊富で高品質なデータが提供され、組織は完璧なアルゴリズムがない場合でも機械学習を最適化できるようになります。 たとえば、組織が顧客の購買習慣に関する十分なデータを持っている場合、どの顧客が新製品に興味を持つかを予測するために複雑なアルゴリズムは必要ありません。データ管理とナレッジ管理を統合することで、組織は強化されたインテリジェントなアルゴリズムとモデルを利用できるようになります。これにより、意思決定のための強力な情報基盤が提供され、AI の利点が最大限に引き出されます。 原題: 機械学習の改善: ナレッジグラフがデータに深い意味をもたらす方法、著者: Kendall Clark [51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください] |
<<: 自動運転制御プロセスにおいて解決すべき規制上の問題は何ですか?
>>: 一貫性ハッシュアルゴリズムの使い方がわからない場合は、履歴書に負荷分散に取り組んだと書かないでください。
現在、人類社会が直面している人工知能のセキュリティ問題は、人工知能のアルゴリズムとシステムの特性によ...
Companies and Markets の評価レポートでは、世界の音声認識市場は今後さらに多様...
人工知能は徐々に私たちの生活に入り込み、さまざまな分野に応用されてきました。AIは私たちの仕事のパー...
[[248005]]インターネット業界は将来性が有望で、お金を稼げるので就職するには良い場所だと多...
現在、人工知能は独立に向けて動き始めています。世界中の企業はこの学際的な分野に適応し、ほぼすべてのビ...
[[192373]]業界分析2016 年、世界のディープラーニング市場規模は 2 億 2,700 万...
急速に進化する今日のテクノロジー環境において、成功を目指す企業にとって、常に時代の先を行くことが重要...
最近、新しい「特許法」の全文が公布され、新たに改正された「著作権法」が公布されたことにより、国は知的...
顔スキャン決済は私たちの生活に入り込んでいます。普通のスマートフォンのカメラに顔を向けるだけで、本人...
AI応用の時代において、人工知能技術は研究室から産業化へと移行しています。人工知能が徐々に製品応用市...
[[283211]] Unsplash の Franck V による写真この記事はLeiphone....
現在、開発者は AI によって生成されたデータをひそかに使用して AI モデルをトレーニングしていま...
今朝早く、私たちがまだ寝ている間に、海の向こうの Meta が大きなことをしました。Llama 2 ...
クラウドの世界を探ってみましょう。ただし、単なるクラウドではなく、未来のクラウドです。具体的には、2...