プロのようにビッグデータをマイニングするにはどうすればいいでしょうか?

プロのようにビッグデータをマイニングするにはどうすればいいでしょうか?

股関節置換手術にはどれくらいの時間がかかりますか?

これは病院にとって学術的な問題ではありません。 2015年に病院は推定360億ドルの無償医療費を負担したが、その多くは患者からの未払い請求によるものだった。

この問題の解決策の 1 つは、手術に関連するコストを制限することですが、これはどのように実現できるでしょうか? 答えは機械学習です。病院では現在、予測分析を使用して、股関節手術などの手術の平均所要時間や潜在的な問題を予測しています。

[[208815]]

たとえば、ヘルスケア購入者からのデータには、患者の年齢、主要なヘルスケア提供者、二次診断が表示されます。機械学習と予測分析を使用することで、データから将来のコストを予測し、回復に問題を抱える可能性のある患者を特定することができます。この措置により、病院はより適切な臨床判断を下し、再入院率を減らし、患者の入院期間を短縮し、より良いケアを提供できるようになります。

世界中の企業が、機械学習を使用してデータを分析する際に、同様の現実世界への影響を発見しています。しかし問題は、その効果がしばしば短命であることだ。

フォレスター・リサーチのアナリスト、マイク・ゴルティエリ氏は、機械学習は結果が確実な従来のビジネス・インテリジェンス業務とは異なると指摘した。 「機械学習モデルを探している場合、『やってみます』と言っても、うまくいかないかもしれません」と同氏は言う。「企業は、株式市場を予測するモデルが欲しいからといって、それが手に入るとは限らないことを理解すべきです。」

DXC テクノロジー アナリティクス データ ラボは、コンサルティングと分析の実装方法の検討に重点を置くデータ サイエンティストのグローバル ハブです。研究所所長のラグス・ラガヴェンドラ氏は、企業はしばしば過大な負担を負い、業績が芳しくないと述べた。 「顧客は、アクセスできるすべてのデータを理解しようとして、やり過ぎてしまう傾向があります」と彼は言う。「アクセスできるデータを確認してから、次のステップを検討することをお勧めします。」

組織がデータから有用な洞察を引き出そうと試みて失敗した場合、まずすべきことは、失敗と反復がプロセスの一部であることを受け入れることです。しかし、機械学習をより巧みに利用することで、成功の可能性を最大限に高めることができます。機械学習を使用する 8 つの方法は次のとおりです。

解決したい問題から始めましょう。データに直接飛び込んで、すぐに役立つ情報を発見できると期待するのは間違ったアプローチです。データ調査への適切なアプローチは、ビジネス成果とデータ関連の質問を結び付ける適切なパフォーマンス測定基準を特定することから始まります。ただし、選択された基準は適切なものでなければなりません。たとえば、DXC が最近メディア企業と協力して加入者が離れていく理由を説明したとき、最も直感的な指標は「加入者ベース」でした。関連する指標はユーザーあたりの平均収益 (ARPU) であり、これは収益の増加という会社のより大きなビジネス目標に直接結びついていることがわかりました。

機械学習プロセスを産業化します。 「ビッグデータ分析のプロセス全体が産業化されていない」と、製造、通信、自動車、航空、エネルギー、金融サービス、ヘルスケアなどさまざまな業界をサポートする研究室を持つラガヴェンドラ氏は言う。 「多くの場合、分析を何度も繰り返したり、拡張に失敗したりします。」DXC は、シンプルで効率的な学習モデルである産業化された機械学習を強く支持しています。DXC は、データの抽出とクリーニングからアルゴリズムの構築、実稼働への導入、有用な情報の取得まで、分析のすべての段階が、エンタープライズ テクノロジーで再利用および展開可能であるべきだと考えています。

サイロについて心配する必要はありません。サイロは、統合されたデータ プールへのアクセスを妨げるため、多くの企業のデータ マイニング プロジェクトにとって悩みの種となっています。しかし、サイロは一部の人が考えるほど大きな障害ではありません。 「インテリジェントなデータとプラットフォーム戦略があれば、サイロについてそれほど心配する必要はありません」と Raghavendra 氏は言います。つまり、解決したい問題でなければ、心配する必要はないということです。ただし、さまざまなデータ ソースを統合することで、後で発生する問題を解決できるように準備しておく必要があります。 「柔軟でモジュール化されたプラットフォームにより、必要に応じてデータを統合できます」とラガヴェンドラ氏は付け加えた。

外部プログラムについて考えてみましょう。必ずしもすべての情報、才能、分析、知恵が揃っているわけではありません。これはエコシステムの問題であり、周囲の可能性を活用できる者が勝利するでしょう。クラウドソーシングのデータ サイエンティスト、機械学習、外部データセットはすべて、強力な可能性を秘めています。

データレイクを使用します。データ レイクは、形式に関係なく、既存のデータをすべてそのまま保存できるリポジトリです。ラガヴェンドラ氏は、企業は最初は使い方がわからなくても、すべてのデータをデータレイクに保存すべきだと述べた。しかし、データレイクの構築について考えることから始めないでください。

目標を念頭に置いて探索的データ分析 (EDA) を実行します。データ マイニングの最初の段階は EDA であり、視覚データと非視覚データを要約することを目的としています。 「探索的データ分析はサイロ化されていることが多いといつも感じていました」と、DXC のシニア データ サイエンティストである Bharathan Shamasundar 氏は言います。「EDA の目的は、データ内のパターンに関する洞察を提供し、次のステップが何であるべきかを知らせることです。」しかし、多くの場合、企業は形式的な対応だけをしています。 DXC がエネルギー会社と行った経験は、インテリジェント EDA の重要性を強調しています。この電力会社は、風力タービンで生産されるエネルギー量を正確に予測しようとしていました。この会社が EDA をアルゴリズムに適用したとき、DXC チームは、計算に使用する変数が少ないにもかかわらず、タービンが 95% の時間稼働していると想定していた既存の標準に疑問を呈しました。この経験から、事前に意味のある EDA を行うと、既存のデータに適合するアルゴリズムが見つかる可能性が高くなることが分かりました。

スマート サンプリングを使用します。企業がビッグデータから有用な洞察を得られていない理由の 1 つは、ビッグデータを使いすぎていることです。 「サンプリングという言葉は、不快なものになってしまった」とシャマスンダル氏は言う。「データサンプリングは、データを処理する非常に賢い方法です。」多くの場合、「ビッグデータ」は冗長な情報で満たされているように見えることがある。商品取引会社である DXC では、取引取引の 94% が小規模なデータ サブセットに基づいていたため、保管されているデータの多くが冗長であると判断しました。これは、品質と関連性を評価することがデータ戦略の重要な部分であることを示唆しています。

データ サイエンス イニシアチブのための柔軟な運用モデルを開発します。 Raghavendra 氏は次のようにアドバイスしています。「データ サイエンティストを雇用できないからといって、データ分析プログラムを開始しないでください。」データ サイエンティストの需要は現在供給より 60% 高く、そのギャップが縮まる兆しはありません。企業が十分なデータサイエンティストを配置できない場合は、専門的な分析サポートや「市民データサイエンティスト」を提供するパートナー組織の活用を検討すべきだとラガヴェンドラ氏は述べた。シチズン データ サイエンティストは、雇用主のドメインとビジネス運営を理解しています。データ マイニングの特定のタスクを簡素化する既製の分析プラットフォームを使用して、適切な分析を実行できます。企業が分析を活用して問題を解決するにつれて、パートナーはプログラムの拡張や複数の領域でのより深い機能の構築を支援できます。

これらのガイドラインに従うことで成功の可能性は高まりますが、企業は失敗は現実に起こり得ることを忘れてはなりません。データ サイエンスは、仮説を証明または反証することを目的として科学的手法を使用してデータを研究します。データの活用は研究開発活動として考えるべきです。 「6つか12のアイデアを用意して、同時に取り組む方が良い。すべてがうまくいくとは限らないからだ」と、データクエリを研究するグアルティエリ氏は言う。

データ量が増え続けるにつれて、課題はますます困難になるでしょう。一方、データが多いほど、潜在的な報酬も大きくなります。

DXC の思想的リーダーシップ部門である DXC Edge Forum のリサーチ ディレクター、デイブ・アーロン氏によると、多くの企業は依然として、最も重要な資産は物理的資産と金銭的資産であると考えているそうです。

「今後 10 年間で、企業は情報を資産とみなし、分析および学習プラットフォームを構築し、継続的に改善していくでしょう」とアロン氏は述べました。「モノのインターネットとデータ保護法の強化により、この問題はさらに重要になります。」

病院、公共事業、その他の事業を問わず、データから利益を得るには、慎重なアプローチと、科学的手法を使用し尊重するという断固たる決意が必要です。

<<:  医師は依然として自分の経験をより信頼しています。病院はビッグデータの収集と機械学習の過負荷の問題をどのように解決するのでしょうか?

>>:  ディープラーニングを使って夢に現れる物体を分析する

ブログ    

推薦する

日本の警察は、AIを使って不審者の動きや表情を分析し、「一匹狼」犯罪に対処する予定

7月10日、日経中国版ウェブサイトの報道によると、日本の警察庁は早ければ年内にもAIによる捜査活動を...

情報漏洩を防ぐためにローカルで構築できるオープンソースモデルPrivateGPTが利用可能になりました

6月25日、サムスン、JPモルガン・チェース、アップル、アマゾンなどの企業は、会社の機密情報の漏洩を...

人工知能がクラウド業界を変える5つの方法

サイバー攻撃の巧妙さと深刻さが増すにつれ、IT 業界は協力して、サイバー攻撃からの保護と防止に使用さ...

NeRF を放棄し始めていますか?ガウススプラッティングが自動運転のシナリオで人気があるのはなぜですか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

...

ロボットがお届けする素敵なショッピング旅行

[[373854]]最近、北京にショッピングモールがオープンした。オープン当日、客を出迎えたのは「人...

...

2022年のNature年次指数が発表され、最も急成長した50の機関のうち31は中国の機関です。

​たった今、2022年のNature年次インデックスレポートが発表されました。上位50の研究機関のう...

GitHub のホット プロジェクト: 実稼働レベルのディープラーニング プロジェクトを構築するには?

ディープラーニング モデルを本番環境に導入することは、優れたパフォーマンスのモデルをトレーニングする...

AIビッグモデルの核となる概念を一挙に解説する人気科学記事

写真トークン、ベクトル、埋め込み、アテンション、これらの AI モデル用語は、いつも馴染みがありそう...

ダイクストラアルゴリズムに関する予備的研究

ダイクストラアルゴリズム (Dijkstra アルゴリズムとも呼ばれます) は、有向グラフ内の単一の...

顔認識の3つの主要技術と4つの主要機能

2016年百度世界大会が開幕し、百度創始者の李承燁氏は大会で「人工知能」をテーマに講演し、最新製品「...

スーパードライグッズ: データサイエンスの全体像を概観する記事: 法則、アルゴリズム、問題の種類...

Pradeep Menon 氏は、ビッグデータ、データ サイエンス、データ アーキテクチャの分野で...