探索的データ分析: 人工知能と機械学習の有効性を判断するための第一歩

探索的データ分析: 人工知能と機械学習の有効性を判断するための第一歩

データ品質の低さは、人工知能 (AI) および機械学習 (ML) テクノロジの実際のパフォーマンスを深刻に損ないます。この問題は、小規模なスタートアップ企業から Google のようなテクノロジー大手企業まで、あらゆる規模の企業に影響を及ぼしています。しかし、なぜデータの品質は常に信頼できないのでしょうか? 人的要因が鍵となる可能性があります。

今日、企業はかつてないほど多くのデータを保有していますが、そのデータを実際の価値に変えることは依然として困難です。 AI と ML によってもたらされる自動化機能は、現実世界のデータを使用して複雑な問題を解決する効果的な手段として広く認識されており、多くの企業がビジネスを強化するためにそれらを使用することに熱心です。しかし、この流行自体が、上流データ分析プロジェクトを大量に急いで立ち上げる原因にもなりました。

[[396612]]

自動化されたパイプラインが構築されると、その中のアルゴリズムがすでにほとんどの作業を実行できるため、データ収集プロセスを更新する必要はほとんどありません。ただし、パイプラインが構築されたからといって、それが永久に稼働し続けるというわけではないことに注意してください。どのドリフト パターンがパイプラインのパフォーマンスを低下させているかに注意しながら、時間の経過とともに基礎となるデータを継続的に調査および分析する必要があります。

幸いなことに、データ チームにはこの浸食のリスクを軽減する能力がありますが、そのコストは必要な時間と労力です。自動化されたパイプラインの実行効率を維持するためには、探索的データ分析 (EDA) を定期的に実行して、システム全体が常に正確に実行されるようにする必要があります。

探索的データ分析とは何ですか?

EDA は、AI と ML を正常に実装するための最初のステップです。アルゴリズム自体を分析する前に、まずデータの内容を理解する必要があります。最終的には、データの品質によって下流の分析パイプラインの実際の有効性が決まります。 EDA を正しく使用すると、ユーザーはデータ内の不要なパターンやノイズを識別でき、企業は適切なアルゴリズムをより正確に選択できるようになります。

EDA フェーズでは、動作パターンが期待どおりであることを確認するために、データを積極的にクエリする必要があります。まず、徹底的な分析が必要な次の 10 の重要な質問から始めましょう。

1. データポイントは十分ありますか?

2. データ センターと個別の測定値は期待どおりですか?

3. 実際の分析に使用できる良質なデータ ポイントはいくつありますか?

4. 欠損値はありますか?これらの不良値はデータの重要な部分を構成していますか?

5. データの経験的分布はどのようなものですか? データは正規分布に従っていますか?

6. 値に特別なクラスターまたはグループはありますか?

7. 外れ値はありますか? これらの外れ値はどのように処理する必要がありますか?

8. 異なる次元の間に相関関係はありますか?

9. 下流の分析や解釈のために、データを再フォーマットするなどして変換する必要がありますか?

10. データが高次元の場合、あまり多くの情報を失うことなくデータを削減できますか? 一部の次元はノイズですか?

これらの問題はさらなる問題を引き起こすでしょう。これは完全な質問リストではありませんが、考えるための出発点にすぎません。最終的には、誰もが既存のデータ パターンをより深く理解し、データを正しく処理して、最も適切な処理アルゴリズムを選択できるようになることを願っています。

基礎となるデータは絶えず変化しているため、アルゴリズムが受け取る入力機能が常に安定した状態を保つためには、EDA にさらに多くの時間を導入する必要があります。たとえば、Airbnb は、データ サイエンティストがモデル開発サイクルの時間の約 70% をデータ収集と特徴量エンジニアリングに費やしていることを発見しました。これには、データ構造とパターンを決定するための大量の分析作業が含まれます。つまり、このデータを理解するための時間を取らないと、AI と ML の取り組みが制御不能になってしまう可能性が非常に高くなります。

唯一不変なのは変化だ

現在、デジタル サービスの最も重要なアプリケーションはネットワーク セキュリティと不正検出に集中しており、この市場の総価値は 300 億米ドルを超えています。 2030年頃までに市場総額は1,000億米ドルを超えると予想されています。 Amazon Fraud Detector や PayPal Fraud Management Filters などのツールはオンライン詐欺との戦いで役割を果たしてきましたが、詐欺検出において唯一不変なのは変化そのものです。企業は常に新たな詐欺に備える必要があり、一方で詐欺師たちも攻撃能力を確保するために「革新」に努めています。

新しいタイプの詐欺には、前例のないデータ パターンが含まれていることがよくあります。たとえば、新しいユーザーは、AI システムがこれまで見たことのない郵便番号を使用して登録し、取引を行うことがよくあります。新規ユーザーは世界中から来るかもしれないが、登録場所が本当に珍しい場合は、注意したほうが良いだろう。

この種の計算で最も難しいのは、AI モデルが不正な取引と正常な取引を正確に区別できるようにすることです。データ サイエンティストとして、まず基礎となるアルゴリズムをガイドして、通常のトランザクションと不正なトランザクションの特性を予備的に理解させ、その後、ゆっくりとより多くの不正検出方法を探索させる必要があります。その後の学習は、統計的手法で検索された大量のデータと切り離せません。ユーザーは顧客グループのプロファイルを作成し、常連客と詐欺師の違いを判断し、登録情報、取引内容、顧客の年齢、収入レベル、名前など、顧客を正確に分類するのに役立つ情報を抽出できます。通常の取引を不正取引としてマークすると、不正取引自体よりも顧客体験や製品の評判に大きな損害を与えることが多いことに注意することが重要です。

さらに「興味深い」のは、EDA は製品ライフサイクル全体を通じて繰り返す必要があるプロセスであるということです。新たな詐欺行為は必然的に新たなデータ パターンに対応することになります。最終的に、企業は AI および ML パイプラインを機能させ続けるために、最適な不正検出機能を維持するために EDA に多大な時間と労力を投資する必要があります。

つまり、AI と ML の成功は、多数のアルゴリズムを盲目的に積み重ねることではなく、データに対する深い理解から生まれます。

AI および ML パイプラインは、データがユーザーの既存のパイプラインに適応することを期待するのではなく、データに適応する必要があります。これらの条件が満たされて初めて、AI と ML を活用した新しいビジネスが急速に発展し、前進することが期待できます。

<<:  IBM Cloud Paks コミュニティ リリース: スキルの共有、クラウドなし、知恵なし

>>:  Google が新しいセマンティック セグメンテーション データセットをリリースしました。ちなみに、私はトップに立つモデルを開発し、CVPR2021に採択されました

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能の時代において、「次世代」の教育はどこから始めるべきでしょうか?

[[334948]]自動運転車、音声アシスタント、その他の人工知能技術は、ほとんどの人にとって革命...

2か月でAIをゼロから学んだ方法とは?

編集者注: 人工知能は「電気」のようなものになりつつあり、その将来の発展に関心を持つ人は誰でもそれに...

中国科学院のチームは、最初のLLMモデル圧縮レビューを発表しました。剪定、知識蒸留、量子化技術の詳細な議論です。

最近、大規模言語モデル (LLM) はさまざまなタスクで優れたパフォーマンスを示しています。しかし、...

...

...

量子コンピューティングは今後10年間で物流業界を変えるだろう

近年、サプライチェーンおよび物流業界は、労働力不足から予測不可能な天候、需給の変化まで、ますます多く...

これでブリッジで腹筋運動ができるようになりました!中国初の3Dプリント橋が上海で公開

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

百度と東軟教育が共同で「東軟百度人工知能アカデミー」を設立し、AIの「人材不足」を打破

インテリジェント時代が加速しており、人工知能の人材はAIの発展を支える第一のリソースとして特に重要で...

アリババDAMOアカデミーが自動運転の技術的困難を突破:3D物体検出の精度と速度の両方を実現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

世界ロボット会議は、未来がここにあることを伝えます。

「リラックスして、直立不動で、右を向いてください!」司会者の指示に従い、一列に並んだロボットが一斉...

...

水中ロボットが登場し、「新しいインフラ」の助けを借りてその開発が加速する可能性がある

経済、社会、技術の急速な発展に伴い、世界人口は急速に増加し、天然資源の消費も増加しています。現在、陸...

...

機能テストケース自動生成アルゴリズム ペアワイズ

[[433685]]ペアワイズアルゴリズムとは何ですか?次のテストシナリオの場合:ブラウザ: M、O...