機械学習にとってデータがどれほど重要であるかは誰もが知っています。データ アクセス パターンを理解することで、データ サイエンティストはプロジェクトに適したストレージ インフラストラクチャを決定できるようになります。データ インフラストラクチャにより機械学習が可能になります。しかし、機械学習が実際に使用されると、まず対処する必要がある重要なデータ課題に直面します。
次に、機械学習の課題を克服する方法を理解できるように、それぞれについて詳しく見ていきましょう。 1. 品質 多くのデータ サイエンティストは、外部ソースからのデータを活用したいと考えています。ただし、生データがどのように取得されたかについては、品質管理や保証が行われていないことがよくあります。 外部データの正確さを信頼しますか? これは良い例です。海に浮かぶブイに取り付けられたセンサーが海水温に関するデータを収集します。ただし、センサーが温度を収集できない場合は、999 として記録されます。さらに、2000 年以前は、年号は 2 桁のみで記録されていました。しかし、2000年以降、記録された数は4に変わりました。 したがって、データの品質とその準備方法を理解する必要があります。この場合、ブイ データを分析する科学者は、平均値、中間値、最小値、最大値を使用して生データを視覚化し、これらのデータベース エラーを検出して、それに応じてエラーをクリーンアップできます。 2. スパース性 この場合、スパース性はメタデータに適用されます。多くの場合、メタデータ フィールドは不完全で、一部のフィールドは入力され、一部のフィールドは空白のままになっています。データが単一のソースから生成される場合、それは人間側の規範や知識の欠如が原因である可能性があります。ただし、データがメタデータの標準定義のないさまざまなソースから取得される場合、各データセットにはまったく異なるフィールドが含まれる可能性があります。そのため、それらを組み合わせると、完了したフィールドが一致しない可能性があります。 現在、どのようなメタデータをキャプチャするかについての業界標準はありません。ただし、メタデータはデータ自体と同じくらい重要です。同じ種類のデータが異なるメタデータ フィールドに入力されている場合、データをどのように関連付け、フィルター処理しますか? ブイを例に挙げると、初期のデータ センサーは 10 分ごとに水温を収集していましたが、新しいブイは 3 分ごとに水温を収集します。データを関連付ける唯一の方法は、キャプチャ時に公開されるメタデータを使用することです。科学者が歴史的分析を行う際には、それに応じてモデルを調整できるようにメタデータが必要です。 3. 完全性 データの整合性は、データの正確性と一貫性を保証します。データの保管チェーンは、データがパイプラインや場所を移動する際に侵害されていないことを証明するために重要です。データのキャプチャと取り込みが制御されている場合、データの整合性を比較的簡単に検証できます。しかし、他の人と協力する場合、検証するのは困難です。データが生成されるときに、外部データに対するセキュリティ証明書は存在しません。また、データが期待どおりに記録されたことや、受信したデータが元々記録されていたものとまったく同じであることを保証することもできません。 IoT データとブロックチェーンに関しては興味深い概念がいくつかありますが、そのような概念が広く採用されるまで、データの整合性はセキュリティ技術とポリシーの組み合わせに依存します。たとえば、データは保存中または転送中に侵害される可能性があるため、ネットワーク経由で送信されるデータは https を使用し、保存時には暗号化する必要があります。一方、人為的なエラーを回避するために、アクセス制御はポリシーに基づいて行う必要があります。 始めるにはどうすればいいですか? データの品質、スパース性、完全性は、最終モデルの精度に直接影響し、今日の機械学習が直面している最大の課題の一部です。明確なデータ定義とポリシーを持ち、業界固有のデータ標準を探求する組織は、短期プロジェクトと長期プロジェクトの両方でメリットを得られます。 まだ行っていない場合は、まず組織で独自のデータ収集ポリシーとメタデータ形式を定義し、次に標準的なセキュリティ手法を適用する必要があります。データの品質とスパース性は密接に関係しています。次に、メタデータ戦略を設定し、収集した定性データを使用してデータの有効性を検証できるようにします。最後に、データの整合性を確保するために、データの生成時にデジタル証明書を適用し、送信中に SSL を強制し、暗号化を常に有効にする必要があります。 安全なデータコラボレーション 外部組織と常にデータを交換する必要がある業界の場合、データとメタ形式をオープンソース化することが最善です。これらの標準は、多くの独自の標準よりも広く普及しているからです。さらに良い方法としては、業界のオープン スタンダード委員会を立ち上げ、他の人が参加して貢献できるようにすることができます。良い例は Open Targets (https://www.opentargets.org/) です。これは「ヒト遺伝学とゲノミクスのデータを活用して、薬剤ターゲットを体系的に特定し、優先順位を付ける官民パートナーシップ」です。 特に、研究データのエコシステムは非常に複雑になっており、組織内外の協力者はデータへの迅速なアクセスとデータ管理の簡素化を必要としています。機械学習には多くの課題があります。最初のステップは、適切なデータとインフラストラクチャを使用してプロジェクトを開始することです。 |
<<: 7つの部門:AI、IoTなどの技術を活用し、廃家電リサイクル・処理のインテリジェント化を推進
翻訳者 |陳俊レビュー | Chonglouこの記事では、「少量学習」の概念を紹介し、テキスト分類で...
インターネットとオンラインショッピングの普及は、一部のオフライン業界に前例のない影響をもたらしました...
世界のPC業界が年々衰退し、スマートフォン市場が飽和状態に陥る中、ビッグデータ、クラウドコンピューテ...
人工知能 (AI) ベンチマークは、モデルを測定および比較するための方法を提供します。ベンチマークを...
建設業界がテクノロジーの導入において他の業界に遅れをとっているのは周知の事実です。 2018年の米国...
人間の日常的なコミュニケーションでは、場面内のさまざまな領域や物体に焦点が当てられることが多く、これ...
インターネットの発展により、人々は膨大な量の情報と製品の選択肢に直面しており、パーソナライズされた推...
データの圧縮や蒸留というタスクは、ここ数年大きな注目を集めています。データ圧縮方法は、大規模なデータ...
対話システムの構築は比較的専門的で複雑なプロセスであり、通常は 3 つの主要な段階に分かれています。...