機械学習を使用してデータクレンジングを自動化する方法

機械学習を使用してデータクレンジングを自動化する方法

調査会社ガートナーが最近発表した調査レポートによると、40%の企業がデータ品質の低さのためにビジネス目標を達成できていないという。多くのデータ サイエンティストは、データ分析には高品質のデータを使用することの重要性を認識しており、そのため、データのクリーニングと準備に時間の約 80% を費やしています。つまり、有意義な洞察の抽出に重点を置くのではなく、データ分析に先立つプロセスに多くの時間を費やすことになります。

データ分析プロセスに入る前により良いデータを用意しておくことは必要ですが、各エラーを手動で修正するのではなく、データセット内に存在するデータ品質の問題に対処するためのより良い方法が必要です。

[[386884]]

コードベースのアプローチを使用する

Python や R などのプログラミング言語を使用すると、次のような基本的なデータクリーニング ワークフローを簡単に記述できます。

  • 分析プロセスに役立たない列を削除します。
  • データ型を変更します。
  • 欠落しているデータを強調表示します。
  • 列の値から区切り線とスペースを削除します。
  • データをカテゴリ別ではなく数値順に並べる
  • 文字列を日時形式などに変更します。

プログラミング スクリプトを使用してデータをクリーンアップすることは非常に効果的ですが、多くのプログラミングの専門知識が必要です。さらに、プログラミング スクリプトは、特定のデータ セットとその列の値に特化される傾向があります。つまり、データ値に類似した基礎パターンが含まれている場合、プログラムされた関数はより適切に機能します。そうしないと、複数のシナリオを満たすことができるより一般的なアプローチを実装するのではなく、データクリーニングの目的で特定のシナリオをコードにハードコーディングすることになります。

機械学習とデータクリーニングにおけるその役割

データをクリーンアップするには、まず、不良データを分析して識別できる必要があります。次に、クリーンかつ標準化された形式のデータセットを取得するために修正アクションが実行されます。データクレンジングプロセスには複数の段階があり、機械学習や人工知能技術を採用することでワークフローを自動化できるだけでなく、より正確な結果を得ることができます。

(1)データを分析しエラーを検出する

機械学習がデータクリーニングで重要な役割を果たす最初のステップは、データをプロファイリングし、外れ値を強調表示することです。ヒストグラムを生成し、列の値をトレーニング済みの機械学習モデルに対して実行すると、どの値が外れ値であり、列の他の値と一致しないかが強調表示されます。モデルは標準辞書でトレーニングすることも、データに特化したカスタム データセットを提供することもできます。

(2)データのクリーニングと標準化のためのインテリジェントな提案を提供する

機械学習ソリューションは、列の値のエラーを検出するだけでなく、インテリジェントな推奨を行い、データ品質の問題を解決するための可能なアクションを強調表示することもできます。これらの推奨事項は、同じデータセットで検出されたデータの性質に基づいています。たとえば、2 つのレコードの住所がまったく同じだが郵便番号が異なる場合、機械学習アルゴリズムはこれを修正が必要なエラーの可能性があるとしてフラグ付けできます。これは、住所が同じであれば郵便番号も同じでなければならないという関連性制約をデータセットに設定することで実現されます。

(3)クラスタリングにより重複の可能性がある箇所をハイライトする

レコードの重複排除は、データ クレンジング ワークフローにおける最も重要なステップの 1 つです。機械学習ソリューションは、類似性に基づいてレコードをクラスタリングすることで、ユーザーがレコードのリンクを実行するのに役立ちます。これは、一致と不一致の両方のラベルを含む非繰り返しデータセットで機械学習モデルをトレーニングすることによって実現されます。トレーニングが完了すると、機械学習モデルは新しいデータ セットにインテリジェントにラベルを付け、同じエンティティを参照する可能性が高いデータ レコードを強調表示するクラスターを作成します。

(4)統合/削除の決定に影響を与え、真実の単一ソースを実現する

クラスターを作成するプロセスでは、機械学習アルゴリズムがレコードがそのクラスターに属する可能性を評価します。これにより、データ サイエンティストはデータ レコードを適切に結合または削除する決定を下すことができます。機械学習アルゴリズムで使用される変数を調整して、生成される誤検知と誤検知の数の間に許容可能なしきい値を設定することもできます。

機械学習に基づくデータクリーニング

上記のワークフローは、機械学習ベースのデータ クレンジング ソフトウェアがクレンジング アクティビティを自動化し、スマートな推奨事項を提案することで意思決定プロセスを簡素化する方法を示しています。 AI の力を活用するこの高度なプロセスは、データ サイエンティストがデータのクリーニングと準備に費やす時間を大幅に節約するために不可欠です。

<<:  ガートナー:2025年までにベンチャーキャピタル投資の75%がAIを活用して意思決定を行うようになる

>>:  クラウドベースのAIモバイルアプリケーションは今後も成長し、改善され続けるだろう

ブログ    
ブログ    

推薦する

RPAにより業務効率が大幅に向上、40%の企業が効果を確認

効率性、俊敏性、生産性に対する需要が高まるにつれ、新しいテクノロジーとアプリケーションが、企業と企業...

...

機械学習とディープラーニング、この2つの違いは何でしょうか?

[51CTO.com クイック翻訳] 機械学習とディープラーニング - 両者の類似点と相違点。人工...

産業用 AI チェックリスト: 始めるための 10 ステップ

人類はもはや人工知能(AI)の波から逃れることはできない。彼らが行くところすべてで、最新の AI ソ...

...

...

...

2017年中国・米国データサイエンス比較レポート:Pythonが年間平均給与11万ドルで1位

[[208216]] ***ニュースによると、Kaggleは最近、機械学習とデータサイエンスに関する...

機械学習チューナー: 機械学習を再調整する方法とタイミング

[[329534]]古代ギリシャの哲学者ヘラクレイトスはこう言いました。「唯一不変なものは変化である...

...

OpenAI Soraについて知っておくべきこと

皆さんこんにちは、ルガです。今日も引き続き、人工知能 (AI) エコシステムに関連するテクノロジーで...

無駄な文化に抵抗しましょう!チューリング賞受賞者のジューディア・パール氏と21人の学者が共同で公開書簡を発表

2020年末、チューリング賞受賞者のジュディア・パール氏、機械学習の専門家ペドロ・ドミンゴス氏、量子...

機械学習トレーニングマニュアル: 頑固なブロンズから最強の王へ

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

謎の日本人男性がコードを自動的に削除できるAIを開発し、業界に衝撃を与える

[[317093]]モザイクは、一般的に広く使用されている画像/ビデオ処理方法であり、画像/ビデオ内...

今日から彼は、黄仁訓院士です!米国工学アカデミーの2024年会員リストが発表され、清華大学の黄一東氏らが外国人会員に選出される

本日、2024年度の米国工学アカデミーの新会員リストが発表されました! Nvidiaの黄氏が選出され...