プロのようにビッグデータをマイニングするにはどうすればいいでしょうか?

プロのようにビッグデータをマイニングするにはどうすればいいでしょうか?

股関節置換手術にはどれくらいの時間がかかりますか?

これは病院にとって学術的な問題ではありません。 2015年に病院は推定360億ドルの無償医療費を負担したが、その多くは患者からの未払い請求によるものだった。

この問題の解決策の 1 つは、手術に関連するコストを制限することですが、これはどのように実現できるでしょうか? 答えは機械学習です。病院では現在、予測分析を使用して、股関節手術などの手術の平均所要時間や潜在的な問題を予測しています。

[[208815]]

たとえば、ヘルスケア購入者からのデータには、患者の年齢、主要なヘルスケア提供者、二次診断が表示されます。機械学習と予測分析を使用することで、データから将来のコストを予測し、回復に問題を抱える可能性のある患者を特定することができます。この措置により、病院はより適切な臨床判断を下し、再入院率を減らし、患者の入院期間を短縮し、より良いケアを提供できるようになります。

世界中の企業が、機械学習を使用してデータを分析する際に、同様の現実世界への影響を発見しています。しかし問題は、その効果がしばしば短命であることだ。

フォレスター・リサーチのアナリスト、マイク・ゴルティエリ氏は、機械学習は結果が確実な従来のビジネス・インテリジェンス業務とは異なると指摘した。 「機械学習モデルを探している場合、『やってみます』と言っても、うまくいかないかもしれません」と同氏は言う。「企業は、株式市場を予測するモデルが欲しいからといって、それが手に入るとは限らないことを理解すべきです。」

DXC テクノロジー アナリティクス データ ラボは、コンサルティングと分析の実装方法の検討に重点を置くデータ サイエンティストのグローバル ハブです。研究所所長のラグス・ラガヴェンドラ氏は、企業はしばしば過大な負担を負い、業績が芳しくないと述べた。 「顧客は、アクセスできるすべてのデータを理解しようとして、やり過ぎてしまう傾向があります」と彼は言う。「アクセスできるデータを確認してから、次のステップを検討することをお勧めします。」

組織がデータから有用な洞察を引き出そうと試みて失敗した場合、まずすべきことは、失敗と反復がプロセスの一部であることを受け入れることです。しかし、機械学習をより巧みに利用することで、成功の可能性を最大限に高めることができます。機械学習を使用する 8 つの方法は次のとおりです。

解決したい問題から始めましょう。データに直接飛び込んで、すぐに役立つ情報を発見できると期待するのは間違ったアプローチです。データ調査への適切なアプローチは、ビジネス成果とデータ関連の質問を結び付ける適切なパフォーマンス測定基準を特定することから始まります。ただし、選択された基準は適切なものでなければなりません。たとえば、DXC が最近メディア企業と協力して加入者が離れていく理由を説明したとき、最も直感的な指標は「加入者ベース」でした。関連する指標はユーザーあたりの平均収益 (ARPU) であり、これは収益の増加という会社のより大きなビジネス目標に直接結びついていることがわかりました。

機械学習プロセスを産業化します。 「ビッグデータ分析のプロセス全体が産業化されていない」と、製造、通信、自動車、航空、エネルギー、金融サービス、ヘルスケアなどさまざまな業界をサポートする研究室を持つラガヴェンドラ氏は言う。 「多くの場合、分析を何度も繰り返したり、拡張に失敗したりします。」DXC は、シンプルで効率的な学習モデルである産業化された機械学習を強く支持しています。DXC は、データの抽出とクリーニングからアルゴリズムの構築、実稼働への導入、有用な情報の取得まで、分析のすべての段階が、エンタープライズ テクノロジーで再利用および展開可能であるべきだと考えています。

サイロについて心配する必要はありません。サイロは、統合されたデータ プールへのアクセスを妨げるため、多くの企業のデータ マイニング プロジェクトにとって悩みの種となっています。しかし、サイロは一部の人が考えるほど大きな障害ではありません。 「インテリジェントなデータとプラットフォーム戦略があれば、サイロについてそれほど心配する必要はありません」と Raghavendra 氏は言います。つまり、解決したい問題でなければ、心配する必要はないということです。ただし、さまざまなデータ ソースを統合することで、後で発生する問題を解決できるように準備しておく必要があります。 「柔軟でモジュール化されたプラットフォームにより、必要に応じてデータを統合できます」とラガヴェンドラ氏は付け加えた。

外部プログラムについて考えてみましょう。必ずしもすべての情報、才能、分析、知恵が揃っているわけではありません。これはエコシステムの問題であり、周囲の可能性を活用できる者が勝利するでしょう。クラウドソーシングのデータ サイエンティスト、機械学習、外部データセットはすべて、強力な可能性を秘めています。

データレイクを使用します。データ レイクは、形式に関係なく、既存のデータをすべてそのまま保存できるリポジトリです。ラガヴェンドラ氏は、企業は最初は使い方がわからなくても、すべてのデータをデータレイクに保存すべきだと述べた。しかし、データレイクの構築について考えることから始めないでください。

目標を念頭に置いて探索的データ分析 (EDA) を実行します。データ マイニングの最初の段階は EDA であり、視覚データと非視覚データを要約することを目的としています。 「探索的データ分析はサイロ化されていることが多いといつも感じていました」と、DXC のシニア データ サイエンティストである Bharathan Shamasundar 氏は言います。「EDA の目的は、データ内のパターンに関する洞察を提供し、次のステップが何であるべきかを知らせることです。」しかし、多くの場合、企業は形式的な対応だけをしています。 DXC がエネルギー会社と行った経験は、インテリジェント EDA の重要性を強調しています。この電力会社は、風力タービンで生産されるエネルギー量を正確に予測しようとしていました。この会社が EDA をアルゴリズムに適用したとき、DXC チームは、計算に使用する変数が少ないにもかかわらず、タービンが 95% の時間稼働していると想定していた既存の標準に疑問を呈しました。この経験から、事前に意味のある EDA を行うと、既存のデータに適合するアルゴリズムが見つかる可能性が高くなることが分かりました。

スマート サンプリングを使用します。企業がビッグデータから有用な洞察を得られていない理由の 1 つは、ビッグデータを使いすぎていることです。 「サンプリングという言葉は、不快なものになってしまった」とシャマスンダル氏は言う。「データサンプリングは、データを処理する非常に賢い方法です。」多くの場合、「ビッグデータ」は冗長な情報で満たされているように見えることがある。商品取引会社である DXC では、取引取引の 94% が小規模なデータ サブセットに基づいていたため、保管されているデータの多くが冗長であると判断しました。これは、品質と関連性を評価することがデータ戦略の重要な部分であることを示唆しています。

データ サイエンス イニシアチブのための柔軟な運用モデルを開発します。 Raghavendra 氏は次のようにアドバイスしています。「データ サイエンティストを雇用できないからといって、データ分析プログラムを開始しないでください。」データ サイエンティストの需要は現在供給より 60% 高く、そのギャップが縮まる兆しはありません。企業が十分なデータサイエンティストを配置できない場合は、専門的な分析サポートや「市民データサイエンティスト」を提供するパートナー組織の活用を検討すべきだとラガヴェンドラ氏は述べた。シチズン データ サイエンティストは、雇用主のドメインとビジネス運営を理解しています。データ マイニングの特定のタスクを簡素化する既製の分析プラットフォームを使用して、適切な分析を実行できます。企業が分析を活用して問題を解決するにつれて、パートナーはプログラムの拡張や複数の領域でのより深い機能の構築を支援できます。

これらのガイドラインに従うことで成功の可能性は高まりますが、企業は失敗は現実に起こり得ることを忘れてはなりません。データ サイエンスは、仮説を証明または反証することを目的として科学的手法を使用してデータを研究します。データの活用は研究開発活動として考えるべきです。 「6つか12のアイデアを用意して、同時に取り組む方が良い。すべてがうまくいくとは限らないからだ」と、データクエリを研究するグアルティエリ氏は言う。

データ量が増え続けるにつれて、課題はますます困難になるでしょう。一方、データが多いほど、潜在的な報酬も大きくなります。

DXC の思想的リーダーシップ部門である DXC Edge Forum のリサーチ ディレクター、デイブ・アーロン氏によると、多くの企業は依然として、最も重要な資産は物理的資産と金銭的資産であると考えているそうです。

「今後 10 年間で、企業は情報を資産とみなし、分析および学習プラットフォームを構築し、継続的に改善していくでしょう」とアロン氏は述べました。「モノのインターネットとデータ保護法の強化により、この問題はさらに重要になります。」

病院、公共事業、その他の事業を問わず、データから利益を得るには、慎重なアプローチと、科学的手法を使用し尊重するという断固たる決意が必要です。

<<:  医師は依然として自分の経験をより信頼しています。病院はビッグデータの収集と機械学習の過負荷の問題をどのように解決するのでしょうか?

>>:  ディープラーニングを使って夢に現れる物体を分析する

ブログ    
ブログ    

推薦する

DeepSense: モバイルセンサーの時系列データを処理するためのディープラーニングフレームワーク

DeepSense は、エンドデバイス上で実行されるディープラーニング フレームワークです。ローカル...

LLM評価レビュー論文が出版され、3つの側面から包括的にまとめられ、データベースも掲載されている

大規模言語モデル (LLM) は、学界や産業界から幅広い注目を集めています。有用な LLM を開発す...

アダムとイブ: ディープラーニングの問題を解決するための強力なツール

[[242433]] [51CTO.com クイック翻訳] 近年、ディープラーニングの波がインターネ...

中国は人工知能において3つの大きな優位性を持ち、5年後には日本と米国を追い抜くでしょう!

現在、私たちは「インターネット+」から「人工知能」への移行を経験しています。人工知能の発展は、技術レ...

ビッグデータ、クラウドコンピューティング、人工知能は密接に結びついている

今の時代、どんな製品の開発にも実は学習プロセスが必要です。人工知能技術が急速に進歩したのは、まさに各...

人間は知能を持っているのに、なぜモノのインターネットには人工知能が必要なのでしょうか?

IoT にインテリジェンスが必要なのはなぜですか?人工知能は登場しましたが、具体的な概念はなく、ま...

強化学習は2020年にブレークスルーを達成するでしょうか?

強化学習は AI/ML の目標を達成するために不可欠ですが、克服すべきハードルがまだいくつかあります...

AIと機械学習に切り替えるには、次の5つのスキルを習得する必要があります

1. 機械学習をスキルとして扱うソフトウェア エンジニアとして、私たちは常に学習し、進化するフレーム...

「業界最強」と称されるアリトン・イー・チエンウェン、国内No.1大型モデルを目指す

どの時代にもメインテーマがあり、次の10年の主なテーマはAIです。 ChatGPTの登場以来、中国で...

将来のAIアプリケーションには、より高速でスマートな通信インフラストラクチャが必要

[[409599]]インターネット接続が4Gから5Gへと高速化していく一方で、利用可能な帯域幅が限ら...

わずか 2 分で、シングル ビューの 3D 生成が高速かつ良好に行えます。北京大学などが新しいRepaint123法を提案

画像を 3D に変換する方法としては、通常、スコア蒸留サンプリング (SDS) 方式が採用されていま...

...

...

GPT-5 が誕生しました。50,000 個の H100 が必要です。世界のH100総需要は43万個、Nvidia GPUは品薄の嵐に

「誰がどれだけの H100 を受け取るのか、そしていつ H100 を受け取るのかは、シリコンバレーで...