機械学習を使用してデータクレンジングを自動化する方法

機械学習を使用してデータクレンジングを自動化する方法

調査会社ガートナーが最近発表した調査レポートによると、40%の企業がデータ品質の低さのためにビジネス目標を達成できていないという。多くのデータ サイエンティストは、データ分析には高品質のデータを使用することの重要性を認識しており、そのため、データのクリーニングと準備に時間の約 80% を費やしています。つまり、有意義な洞察の抽出に重点を置くのではなく、データ分析に先立つプロセスに多くの時間を費やすことになります。

データ分析プロセスに入る前により良いデータを用意しておくことは必要ですが、各エラーを手動で修正するのではなく、データセット内に存在するデータ品質の問題に対処するためのより良い方法が必要です。

[[386884]]

コードベースのアプローチを使用する

Python や R などのプログラミング言語を使用すると、次のような基本的なデータクリーニング ワークフローを簡単に記述できます。

  • 分析プロセスに役立たない列を削除します。
  • データ型を変更します。
  • 欠落しているデータを強調表示します。
  • 列の値から区切り線とスペースを削除します。
  • データをカテゴリ別ではなく数値順に並べる
  • 文字列を日時形式などに変更します。

プログラミング スクリプトを使用してデータをクリーンアップすることは非常に効果的ですが、多くのプログラミングの専門知識が必要です。さらに、プログラミング スクリプトは、特定のデータ セットとその列の値に特化される傾向があります。つまり、データ値に類似した基礎パターンが含まれている場合、プログラムされた関数はより適切に機能します。そうしないと、複数のシナリオを満たすことができるより一般的なアプローチを実装するのではなく、データクリーニングの目的で特定のシナリオをコードにハードコーディングすることになります。

機械学習とデータクリーニングにおけるその役割

データをクリーンアップするには、まず、不良データを分析して識別できる必要があります。次に、クリーンかつ標準化された形式のデータセットを取得するために修正アクションが実行されます。データクレンジングプロセスには複数の段階があり、機械学習や人工知能技術を採用することでワークフローを自動化できるだけでなく、より正確な結果を得ることができます。

(1)データを分析しエラーを検出する

機械学習がデータクリーニングで重要な役割を果たす最初のステップは、データをプロファイリングし、外れ値を強調表示することです。ヒストグラムを生成し、列の値をトレーニング済みの機械学習モデルに対して実行すると、どの値が外れ値であり、列の他の値と一致しないかが強調表示されます。モデルは標準辞書でトレーニングすることも、データに特化したカスタム データセットを提供することもできます。

(2)データのクリーニングと標準化のためのインテリジェントな提案を提供する

機械学習ソリューションは、列の値のエラーを検出するだけでなく、インテリジェントな推奨を行い、データ品質の問題を解決するための可能なアクションを強調表示することもできます。これらの推奨事項は、同じデータセットで検出されたデータの性質に基づいています。たとえば、2 つのレコードの住所がまったく同じだが郵便番号が異なる場合、機械学習アルゴリズムはこれを修正が必要なエラーの可能性があるとしてフラグ付けできます。これは、住所が同じであれば郵便番号も同じでなければならないという関連性制約をデータセットに設定することで実現されます。

(3)クラスタリングにより重複の可能性がある箇所をハイライトする

レコードの重複排除は、データ クレンジング ワークフローにおける最も重要なステップの 1 つです。機械学習ソリューションは、類似性に基づいてレコードをクラスタリングすることで、ユーザーがレコードのリンクを実行するのに役立ちます。これは、一致と不一致の両方のラベルを含む非繰り返しデータセットで機械学習モデルをトレーニングすることによって実現されます。トレーニングが完了すると、機械学習モデルは新しいデータ セットにインテリジェントにラベルを付け、同じエンティティを参照する可能性が高いデータ レコードを強調表示するクラスターを作成します。

(4)統合/削除の決定に影響を与え、真実の単一ソースを実現する

クラスターを作成するプロセスでは、機械学習アルゴリズムがレコードがそのクラスターに属する可能性を評価します。これにより、データ サイエンティストはデータ レコードを適切に結合または削除する決定を下すことができます。機械学習アルゴリズムで使用される変数を調整して、生成される誤検知と誤検知の数の間に許容可能なしきい値を設定することもできます。

機械学習に基づくデータクリーニング

上記のワークフローは、機械学習ベースのデータ クレンジング ソフトウェアがクレンジング アクティビティを自動化し、スマートな推奨事項を提案することで意思決定プロセスを簡素化する方法を示しています。 AI の力を活用するこの高度なプロセスは、データ サイエンティストがデータのクリーニングと準備に費やす時間を大幅に節約するために不可欠です。

<<:  ガートナー:2025年までにベンチャーキャピタル投資の75%がAIを活用して意思決定を行うようになる

>>:  クラウドベースのAIモバイルアプリケーションは今後も成長し、改善され続けるだろう

ブログ    
ブログ    

推薦する

...

2020年職場のAIスキルランキング:TensorFlowが人気上昇、Pythonが最も人気、マーケティング部門も学習中

2020年まで残り1ヶ月となりました。最近、オンライン教育ウェブサイトのUdemyは、受講生のコース...

AIとローコード/ノーコードのすべきこと、すべきでないこと

ローコードとノーコードは、新しいアプリケーションやサービスを簡単に作成できるようにして、プログラマー...

能力と信頼性の両方を備えることはできますか? GPT-4やGeminiなどのマルチモーダルモデルの評価レポートはこちら

2023 年には、マルチモーダル大規模モデルの飛躍的な発展が見られるでしょう。マルチモーダル大規模言...

事前学習済みのNLPモデルにおける性別相関の測定

自然言語処理 (NLP) はここ数年で大きな進歩を遂げており、BERT、ALBERT、ELECTRA...

エンタープライズ電気システムにおける機械学習の 5 つのメリット

機械学習技術は企業の電気システムの作業と保守において重要な役割を果たしており、人々は機械学習を採用す...

Kaggle マスターはどのような言語、フレームワーク、モデルを使用していますか?詳細な統計はこちら

統計ウェブサイト: https://mlcontests.com/ 著者はいくつかの重要な結論に達し...

顔認識はどれくらい強力ですか? AIFRテクノロジーはあなたを数分で「スター」に変えます

[[195170]] [51CTO.com からのオリジナル記事]最近、私たちの画面には、「どの有名...

調査レポート:2021年にAI機能を導入する企業が増加

[[360189]]今年、ほとんどの企業は、新型コロナウイルス感染症による混乱に対処し、リモートワー...

Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティング インフラストラクチャ

8月12日、Juliプロジェクトシリーズ活動の第21回「大規模言語モデルのトレーニングとアプリケーシ...

ApolloとCarSim/TruckSimの共同シミュレーション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

人工知能の商業化における問題点をどう解決するか?

「2018年中国人工知能商業上陸研究報告」によると、過去1年間、業界は人工知能に大きな期待を寄せ、...

Github ホットリスト: 2021 年の最もクールな AI 論文 33 件をレビュー!多くの中国人作家が選ばれた

[[435977]]現在、AI技術は急速に進歩しており、毎年多くの優れた論文が発表されています。 2...