翻訳者 | 張毅 校正 | 梁哲、孫淑娟 出典: frimufilms が作成したビジネス写真 - www.freepik.com 導入人工知能は長い間人気があり、強力なサポートインフラストラクチャと高度なアルゴリズムを備えているだけでなく、市場での応用も幅広く増加しています。しかし、これだけでは機械学習 (ML) プロジェクトの実装が容易になるわけではありません。 出典: roserodionova が作成したチャットボットベクター - www.freepik.com データ品質の問題も新しい概念ではなく、機械学習の応用が始まって以来、注目されてきました。マシンは履歴データから継続的に学習し、その結果の品質はトレーニング データの品質と密接に関係しています。 データ中心 vs. アルゴリズム中心データ サイエンティストの仕事では、2 つの状況がよく発生します。初期の探索的データ分析を完了し、モデルのパフォーマンスに非常に満足しているものの、モデルの適用結果が十分ではなく、ビジネスで受け入れられないという状況です。この場合、R&D のコストと適時性を考慮して、次の計画は何でしょうか。
つまり、マシンに適切な入力データを提供しなければ、最も高度で高精度な ML アルゴリズムであっても、あまり良い結果は得られません。 Andrew Ng 氏は、講演「MLOps: モデル中心からデータ中心の AI へ」でこのことを非常にわかりやすく説明しました。 データ品質評価機械学習アルゴリズムには、トレーニング データの単一のビュー (つまり、フラットな構造) が必要です。ほとんどの組織は複数のデータベースを維持しているため、複数のデータ ソースを組み合わせて必要なすべての属性を抽出するデータ準備プロセスには、かなりの時間がかかり、人的リソースも大量に必要になります (専門の技術者が必要)。 このステップでは、発見された誤ったデータが複数のエラー源にさらされるため、確立されたロジックが正しく表現、理解、プログラム、実装されていることを確認するために、データの厳格なピアレビューが必要になります。 データベースが複数のソースからのデータを統合するにつれて、データの取得、クレンジング、変換、関連付け、統合に関連する品質の問題が重要になります。 データの準備、クリーニング、変換がモデル構築のほとんどの時間を占めるというのは、データ サイエンス業界ではおそらく一般的な見解でしょう。したがって、急いでモデルにデータを入力するのではなく、広範囲にわたるデータ品質チェックを実行することをお勧めします。データ チェックの量と種類は主観的になる可能性がありますが、データ品質評価におけるいくつかの重要な要素 (完全性、一意性、最新性、一貫性、正確性) について議論することが重要です。 データ品質を保証するテクノロジー:
品質!品質!品質! データ品質を向上させる方法を見てみましょう。
サプライヤー側の品質チェックと消費者側の共通理解は、均一なラベルの形成に役立ちます。
大規模なデータを理解するデータ品質が低下する可能性があるいくつかの重要な領域について説明したので、TensorFlow を使用して大規模なデータを理解する方法を見てみましょう。
TensorFlow のドキュメントでは、TFDV を使用してデータを分析し、その品質を向上させる方法が説明されています。興味がある場合は、コラボレーション プラットフォーム Colab の TFDV コードをデータセットで使用してみてください。 Google はこの Colab プラットフォームでコードの一部を共有しました。このコードは、次のようにタクシーの数値データとカテゴリ データの統計分析を実行します。 右側に表示される欠損値の割合は、データをよりよく理解するのに役立ちます。 pickup_census_tract は、ML モデルにとって意味がなく、EDA アルゴリズムを使用してフィルタリングできる、完全に欠損した値を持つレコードを表します。 データ ドリフトは、モデルのデプロイ時に避けられない現象です。トレーニング データとテスト データの間で発生する場合もあれば、トレーニング データから数日後に発生する場合もあります。 ML アルゴリズムは、トレーニング データとテスト データの特性が類似しているという仮定の下で実行され、この仮定に違反するとモデルのパフォーマンスが低下します。 参考文献Tensorflow データ検証を始める 翻訳者紹介Zhang Yi、51CTO コミュニティ エディター、中級エンジニア。主な研究は、人工知能アルゴリズムの実装とそのシナリオアプリケーションです。機械学習アルゴリズムと自動制御アルゴリズムについてある程度理解し、習得しています。国内外の人工知能技術の発展動向、特にインテリジェントコネクテッドカー、スマートホームなどの分野における人工知能技術の具体的な実装と応用に引き続き注目していきます。 原題:機械学習モデルを成功に導くデータ品質の重要性、著者: Vidhi Chugh |
<<: コンピュータマスターのジレンマ!試験に合格するのは難しく、仕事を見つけるのも難しい
>>: 2021 年の Python 機械学習ライブラリ トップ 10
今日の急速に変化するデジタル環境において、顧客は独自のニーズや要望を満たす優れたサービスをますます期...
[[400034]]この記事はAI Publishingが執筆したWeChatパブリックアカウント「...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
8月31日、人工知能(AI)がチェスやビデオゲームなどの分野で人間に勝利した。そして今回初めて、人間...
1新しいインテリジェンス集出典: arXiv、Github張毅編纂[新しいインテリジェンスの紹介]自...
[[194165]]以下では、主にデータ構造の教科書で紹介されている「10 種類のソートアルゴリズム...
グラフ埋め込み、グラフ表現、グラフ分類、グラフニューラルネットワーク、この記事では必要なグラフモデリ...
[[208842]]最近、カリフォルニア州クララで開催された Health 2.0 カンファレンス...
映画データベース (TMDB) は映画データ用の API を提供し、ユーザーはこのデータベースからデ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
近年、テクノロジーとビジネスニーズのギャップにより、人工知能は産業実装の過程で一連の課題に直面してい...
7月25日、海外メディアの報道によると、セールスフォース・ドットコムが発表したIT現状報告によると、...
前回の記事では主に非線形次元削減手法についてまとめました。この記事では、一般的な線形次元削減手法につ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ロボットは現代社会で生み出された新しい種です。科学技術の進歩により、ロボットの開発はもはや人間の能力...