機械学習を使用してデータクレンジングを自動化する方法

機械学習を使用してデータクレンジングを自動化する方法

調査会社ガートナーが最近発表した調査レポートによると、40%の企業がデータ品質の低さのためにビジネス目標を達成できていないという。多くのデータ サイエンティストは、データ分析には高品質のデータを使用することの重要性を認識しており、そのため、データのクリーニングと準備に時間の約 80% を費やしています。つまり、有意義な洞察の抽出に重点を置くのではなく、データ分析に先立つプロセスに多くの時間を費やすことになります。

データ分析プロセスに入る前により良いデータを用意しておくことは必要ですが、各エラーを手動で修正するのではなく、データセット内に存在するデータ品質の問題に対処するためのより良い方法が必要です。

[[386884]]

コードベースのアプローチを使用する

Python や R などのプログラミング言語を使用すると、次のような基本的なデータクリーニング ワークフローを簡単に記述できます。

  • 分析プロセスに役立たない列を削除します。
  • データ型を変更します。
  • 欠落しているデータを強調表示します。
  • 列の値から区切り線とスペースを削除します。
  • データをカテゴリ別ではなく数値順に並べる
  • 文字列を日時形式などに変更します。

プログラミング スクリプトを使用してデータをクリーンアップすることは非常に効果的ですが、多くのプログラミングの専門知識が必要です。さらに、プログラミング スクリプトは、特定のデータ セットとその列の値に特化される傾向があります。つまり、データ値に類似した基礎パターンが含まれている場合、プログラムされた関数はより適切に機能します。そうしないと、複数のシナリオを満たすことができるより一般的なアプローチを実装するのではなく、データクリーニングの目的で特定のシナリオをコードにハードコーディングすることになります。

機械学習とデータクリーニングにおけるその役割

データをクリーンアップするには、まず、不良データを分析して識別できる必要があります。次に、クリーンかつ標準化された形式のデータセットを取得するために修正アクションが実行されます。データクレンジングプロセスには複数の段階があり、機械学習や人工知能技術を採用することでワークフローを自動化できるだけでなく、より正確な結果を得ることができます。

(1)データを分析しエラーを検出する

機械学習がデータクリーニングで重要な役割を果たす最初のステップは、データをプロファイリングし、外れ値を強調表示することです。ヒストグラムを生成し、列の値をトレーニング済みの機械学習モデルに対して実行すると、どの値が外れ値であり、列の他の値と一致しないかが強調表示されます。モデルは標準辞書でトレーニングすることも、データに特化したカスタム データセットを提供することもできます。

(2)データのクリーニングと標準化のためのインテリジェントな提案を提供する

機械学習ソリューションは、列の値のエラーを検出するだけでなく、インテリジェントな推奨を行い、データ品質の問題を解決するための可能なアクションを強調表示することもできます。これらの推奨事項は、同じデータセットで検出されたデータの性質に基づいています。たとえば、2 つのレコードの住所がまったく同じだが郵便番号が異なる場合、機械学習アルゴリズムはこれを修正が必要なエラーの可能性があるとしてフラグ付けできます。これは、住所が同じであれば郵便番号も同じでなければならないという関連性制約をデータセットに設定することで実現されます。

(3)クラスタリングにより重複の可能性がある箇所をハイライトする

レコードの重複排除は、データ クレンジング ワークフローにおける最も重要なステップの 1 つです。機械学習ソリューションは、類似性に基づいてレコードをクラスタリングすることで、ユーザーがレコードのリンクを実行するのに役立ちます。これは、一致と不一致の両方のラベルを含む非繰り返しデータセットで機械学習モデルをトレーニングすることによって実現されます。トレーニングが完了すると、機械学習モデルは新しいデータ セットにインテリジェントにラベルを付け、同じエンティティを参照する可能性が高いデータ レコードを強調表示するクラスターを作成します。

(4)統合/削除の決定に影響を与え、真実の単一ソースを実現する

クラスターを作成するプロセスでは、機械学習アルゴリズムがレコードがそのクラスターに属する可能性を評価します。これにより、データ サイエンティストはデータ レコードを適切に結合または削除する決定を下すことができます。機械学習アルゴリズムで使用される変数を調整して、生成される誤検知と誤検知の数の間に許容可能なしきい値を設定することもできます。

機械学習に基づくデータクリーニング

上記のワークフローは、機械学習ベースのデータ クレンジング ソフトウェアがクレンジング アクティビティを自動化し、スマートな推奨事項を提案することで意思決定プロセスを簡素化する方法を示しています。 AI の力を活用するこの高度なプロセスは、データ サイエンティストがデータのクリーニングと準備に費やす時間を大幅に節約するために不可欠です。

<<:  ガートナー:2025年までにベンチャーキャピタル投資の75%がAIを活用して意思決定を行うようになる

>>:  クラウドベースのAIモバイルアプリケーションは今後も成長し、改善され続けるだろう

ブログ    
ブログ    
ブログ    

推薦する

人工知能を正しく実装するにはどうすればいいでしょうか?

[[264479]]人工知能 (AI) が私たちの日常の仕事や生活にますます普及し、企業がさまざま...

何開明のMAEが人気になってから、ビジュアルトランスフォーマーを整理したいですか?この記事は100以上の

[[436989]]コンピュータービジョン界は最近非常に活発です。まず、He Kaiming 氏らは...

...

ドローンは思考によって制御される新しい方法を経験しており、その商業的展望は非常に刺激的です。

近年、ドローン業界は非常に急速な発展を遂げていると言えます。製品面では数量が大幅に増加し、種類もます...

データ構造とアルゴリズム: 同型文字列

[[441407]]同型文字列LeetCode の質問へのリンク: https://leetcode...

人工知能とは何ですか?

人工知能とは何か人工知能(AI)の誕生以来、その定義と意味合いは議論の的となってきました。文字通り、...

日本の警察は、AIを使って不審者の動きや表情を分析し、「一匹狼」犯罪に対処する予定

7月10日、日経中国版ウェブサイトの報道によると、日本の警察庁は早ければ年内にもAIによる捜査活動を...

AIは自己反復と最適化が可能で、わずか26秒で歩行ロボットを設計できる

10月10日のニュース、AIに陸上を歩けるロボットを設計するように頼んだら何秒かかるでしょうか?答え...

...

オフライン小売業で AI 自動チェックアウト サービスを構築するにはどうすればよいでしょうか?

翻訳者 | 邱凱校正 | 梁哲、孫淑娟列に並ぶ必要がなく、遅延もなく、便利に購入できるという顧客体験...

指紋と顔の認識が手のひらスキャンにアップグレードされ、大ヒット映画でしか見られない新技術がシティエキスポでデビュー

[[250312]]手のひらをスワイプするだけで入場や支払いができ、道路清掃車にセンサーを追加するこ...

予測分析が米国におけるインフルエンザ流行の乗り切りにどのように役立つか

新型コロナウイルスの武漢での感染拡大が続く中、米国でのインフルエンザも大きな注目を集めている。毎年の...

...

AIは運輸業界をどう変えるのか

運輸業界は、現在のレベルに到達するまでに何百年にもわたる研究、実験、改良を経てきました。 1787 ...