プロのようにビッグデータをマイニングするにはどうすればいいでしょうか?

股関節置換手術にはどれくらいの時間がかかりますか?

これは病院にとって学術的な問題ではありません。 2015年に病院は推定360億ドルの無償医療費を負担したが、その多くは患者からの未払い請求によるものだった。

この問題の解決策の 1 つは、手術に関連するコストを制限することですが、これはどのように実現できるでしょうか? 答えは機械学習です。病院では現在、予測分析を使用して、股関節手術などの手術の平均所要時間や潜在的な問題を予測しています。

[[208815]]

たとえば、ヘルスケア購入者からのデータには、患者の年齢、主要なヘルスケア提供者、二次診断が表示されます。機械学習と予測分析を使用することで、データから将来のコストを予測し、回復に問題を抱える可能性のある患者を特定することができます。この措置により、病院はより適切な臨床判断を下し、再入院率を減らし、患者の入院期間を短縮し、より良いケアを提供できるようになります。

世界中の企業が、機械学習を使用してデータを分析する際に、同様の現実世界への影響を発見しています。しかし問題は、その効果がしばしば短命であることだ。

フォレスター・リサーチのアナリスト、マイク・ゴルティエリ氏は、機械学習は結果が確実な従来のビジネス・インテリジェンス業務とは異なると指摘した。「機械学習モデルを探している場合、『やってみます』と言っても、うまくいかないかもしれません」と同氏は言う。「企業は、株式市場を予測するモデルが欲しいからといって、それが手に入るとは限らないことを理解すべきです。」

DXC テクノロジーアナリティクスデータラボは、コンサルティングと分析の実装方法の検討に重点を置くデータサイエンティストのグローバルハブです。研究所所長のラグス・ラガヴェンドラ氏は、企業はしばしば過大な負担を負い、業績が芳しくないと述べた。「顧客は、アクセスできるすべてのデータを理解しようとして、やり過ぎてしまう傾向があります」と彼は言う。「アクセスできるデータを確認してから、次のステップを検討することをお勧めします。」

組織がデータから有用な洞察を引き出そうと試みて失敗した場合、まずすべきことは、失敗と反復がプロセスの一部であることを受け入れることです。しかし、機械学習をより巧みに利用することで、成功の可能性を最大限に高めることができます。機械学習を使用する 8 つの方法は次のとおりです。

解決したい問題から始めましょう。データに直接飛び込んで、すぐに役立つ情報を発見できると期待するのは間違ったアプローチです。データ調査への適切なアプローチは、ビジネス成果とデータ関連の質問を結び付ける適切なパフォーマンス測定基準を特定することから始まります。ただし、選択された基準は適切なものでなければなりません。たとえば、DXC が最近メディア企業と協力して加入者が離れていく理由を説明したとき、最も直感的な指標は「加入者ベース」でした。関連する指標はユーザーあたりの平均収益 (ARPU) であり、これは収益の増加という会社のより大きなビジネス目標に直接結びついていることがわかりました。

機械学習プロセスを産業化します。 「ビッグデータ分析のプロセス全体が産業化されていない」と、製造、通信、自動車、航空、エネルギー、金融サービス、ヘルスケアなどさまざまな業界をサポートする研究室を持つラガヴェンドラ氏は言う。「多くの場合、分析を何度も繰り返したり、拡張に失敗したりします。」DXC は、シンプルで効率的な学習モデルである産業化された機械学習を強く支持しています。DXC は、データの抽出とクリーニングからアルゴリズムの構築、実稼働への導入、有用な情報の取得まで、分析のすべての段階が、エンタープライズテクノロジーで再利用および展開可能であるべきだと考えています。

サイロについて心配する必要はありません。サイロは、統合されたデータプールへのアクセスを妨げるため、多くの企業のデータマイニングプロジェクトにとって悩みの種となっています。しかし、サイロは一部の人が考えるほど大きな障害ではありません。「インテリジェントなデータとプラットフォーム戦略があれば、サイロについてそれほど心配する必要はありません」と Raghavendra 氏は言います。つまり、解決したい問題でなければ、心配する必要はないということです。ただし、さまざまなデータソースを統合することで、後で発生する問題を解決できるように準備しておく必要があります。「柔軟でモジュール化されたプラットフォームにより、必要に応じてデータを統合できます」とラガヴェンドラ氏は付け加えた。

外部プログラムについて考えてみましょう。必ずしもすべての情報、才能、分析、知恵が揃っているわけではありません。これはエコシステムの問題であり、周囲の可能性を活用できる者が勝利するでしょう。クラウドソーシングのデータサイエンティスト、機械学習、外部データセットはすべて、強力な可能性を秘めています。

データレイクを使用します。データレイクは、形式に関係なく、既存のデータをすべてそのまま保存できるリポジトリです。ラガヴェンドラ氏は、企業は最初は使い方がわからなくても、すべてのデータをデータレイクに保存すべきだと述べた。しかし、データレイクの構築について考えることから始めないでください。

目標を念頭に置いて探索的データ分析 (EDA) を実行します。データマイニングの最初の段階は EDA であり、視覚データと非視覚データを要約することを目的としています。「探索的データ分析はサイロ化されていることが多いといつも感じていました」と、DXC のシニアデータサイエンティストである Bharathan Shamasundar 氏は言います。「EDA の目的は、データ内のパターンに関する洞察を提供し、次のステップが何であるべきかを知らせることです。」しかし、多くの場合、企業は形式的な対応だけをしています。 DXC がエネルギー会社と行った経験は、インテリジェント EDA の重要性を強調しています。この電力会社は、風力タービンで生産されるエネルギー量を正確に予測しようとしていました。この会社が EDA をアルゴリズムに適用したとき、DXC チームは、計算に使用する変数が少ないにもかかわらず、タービンが 95% の時間稼働していると想定していた既存の標準に疑問を呈しました。この経験から、事前に意味のある EDA を行うと、既存のデータに適合するアルゴリズムが見つかる可能性が高くなることが分かりました。

スマートサンプリングを使用します。企業がビッグデータから有用な洞察を得られていない理由の 1 つは、ビッグデータを使いすぎていることです。「サンプリングという言葉は、不快なものになってしまった」とシャマスンダル氏は言う。「データサンプリングは、データを処理する非常に賢い方法です。」多くの場合、「ビッグデータ」は冗長な情報で満たされているように見えることがある。商品取引会社である DXC では、取引取引の 94% が小規模なデータサブセットに基づいていたため、保管されているデータの多くが冗長であると判断しました。これは、品質と関連性を評価することがデータ戦略の重要な部分であることを示唆しています。

データサイエンスイニシアチブのための柔軟な運用モデルを開発します。 Raghavendra 氏は次のようにアドバイスしています。「データサイエンティストを雇用できないからといって、データ分析プログラムを開始しないでください。」データサイエンティストの需要は現在供給より 60% 高く、そのギャップが縮まる兆しはありません。企業が十分なデータサイエンティストを配置できない場合は、専門的な分析サポートや「市民データサイエンティスト」を提供するパートナー組織の活用を検討すべきだとラガヴェンドラ氏は述べた。シチズンデータサイエンティストは、雇用主のドメインとビジネス運営を理解しています。データマイニングの特定のタスクを簡素化する既製の分析プラットフォームを使用して、適切な分析を実行できます。企業が分析を活用して問題を解決するにつれて、パートナーはプログラムの拡張や複数の領域でのより深い機能の構築を支援できます。

これらのガイドラインに従うことで成功の可能性は高まりますが、企業は失敗は現実に起こり得ることを忘れてはなりません。データサイエンスは、仮説を証明または反証することを目的として科学的手法を使用してデータを研究します。データの活用は研究開発活動として考えるべきです。「6つか12のアイデアを用意して、同時に取り組む方が良い。すべてがうまくいくとは限らないからだ」と、データクエリを研究するグアルティエリ氏は言う。

データ量が増え続けるにつれて、課題はますます困難になるでしょう。一方、データが多いほど、潜在的な報酬も大きくなります。

DXC の思想的リーダーシップ部門である DXC Edge Forum のリサーチディレクター、デイブ・アーロン氏によると、多くの企業は依然として、最も重要な資産は物理的資産と金銭的資産であると考えているそうです。

「今後 10 年間で、企業は情報を資産とみなし、分析および学習プラットフォームを構築し、継続的に改善していくでしょう」とアロン氏は述べました。「モノのインターネットとデータ保護法の強化により、この問題はさらに重要になります。」

病院、公共事業、その他の事業を問わず、データから利益を得るには、慎重なアプローチと、科学的手法を使用し尊重するという断固たる決意が必要です。

<<: 医師は依然として自分の経験をより信頼しています。病院はビッグデータの収集と機械学習の過負荷の問題をどのように解決するのでしょうか?

>>: ディープラーニングを使って夢に現れる物体を分析する

プロのようにビッグデータをマイニングするにはどうすればいいでしょうか?

銀行業界の「退化」の原因は人工知能なのか？

「AI+教育」が人気を集めているが、次の巨人は誰になるのか？

機械学習とディープラーニングの違いを簡単に分析する

機械学習を拡張するための5つのポイント

2021年のAIの発展：エッジAIは止められない

Linuxに顔認識ログインを追加する方法

王小川の大型模型製作の秘密のレシピが初めて公開されました。5つのステップ、完成まで2か月

新しいモデルは99%の精度で、ChatGPTによって生成されたテキストコンテンツを認識できます。

機械学習および予測アプリケーション用の 50 を超える API。どれを選びますか?

推薦する

ChatGPTが公式検出ツールを削除、AIテキストは識別できないことを認める

IDCレポート：ジェネレーティブAIは爆発的な産業探査の時代に入り、技術供給側は商業化の初期段階にある

自動運転車が公道を走るのを妨げているものは何でしょうか?

IT運用保守プラットフォームアルゴリズムの背後にある2つの「神の助け」

人工知能とクラウドコンピューティングの組み合わせは、企業ビジネスの飛躍的成長をどのように促進するのでしょうか?

「人と車のインタラクション」に新たなブレークスルー！パーデュー大学が Talk2Drive フレームワークをリリース: 学習可能/カスタマイズ可能な「コマンド認識」システム

貧困が私を訓練した

ソフトウェア開発における人工知能: 自動化と最適化

新しい研究：医療AIが新たな統合失調症患者の治療効果をほぼ盲検で評価

予測トークンの速度が2倍になりました！ Transformerの新しいデコードアルゴリズムは人気がある、Alpacaチームより

クラウドネットワークとAIに焦点を当てると、3大通信事業者の財務報告はどのようなことを明らかにするのでしょうか。

畳み込みニューラルネットワークの設計を始めたいですか?これは包括的なデザインガイドです

スマートカーシステムへの生体認証技術の統合

在庫 | 2019 年に最も注目された人工知能と機械学習のスタートアップ 10 社