プロのようにビッグデータをマイニングするにはどうすればいいでしょうか?

プロのようにビッグデータをマイニングするにはどうすればいいでしょうか?

股関節置換手術にはどれくらいの時間がかかりますか?

これは病院にとって学術的な問題ではありません。 2015年に病院は推定360億ドルの無償医療費を負担したが、その多くは患者からの未払い請求によるものだった。

この問題の解決策の 1 つは、手術に関連するコストを制限することですが、これはどのように実現できるでしょうか? 答えは機械学習です。病院では現在、予測分析を使用して、股関節手術などの手術の平均所要時間や潜在的な問題を予測しています。

[[208815]]

たとえば、ヘルスケア購入者からのデータには、患者の年齢、主要なヘルスケア提供者、二次診断が表示されます。機械学習と予測分析を使用することで、データから将来のコストを予測し、回復に問題を抱える可能性のある患者を特定することができます。この措置により、病院はより適切な臨床判断を下し、再入院率を減らし、患者の入院期間を短縮し、より良いケアを提供できるようになります。

世界中の企業が、機械学習を使用してデータを分析する際に、同様の現実世界への影響を発見しています。しかし問題は、その効果がしばしば短命であることだ。

フォレスター・リサーチのアナリスト、マイク・ゴルティエリ氏は、機械学習は結果が確実な従来のビジネス・インテリジェンス業務とは異なると指摘した。 「機械学習モデルを探している場合、『やってみます』と言っても、うまくいかないかもしれません」と同氏は言う。「企業は、株式市場を予測するモデルが欲しいからといって、それが手に入るとは限らないことを理解すべきです。」

DXC テクノロジー アナリティクス データ ラボは、コンサルティングと分析の実装方法の検討に重点を置くデータ サイエンティストのグローバル ハブです。研究所所長のラグス・ラガヴェンドラ氏は、企業はしばしば過大な負担を負い、業績が芳しくないと述べた。 「顧客は、アクセスできるすべてのデータを理解しようとして、やり過ぎてしまう傾向があります」と彼は言う。「アクセスできるデータを確認してから、次のステップを検討することをお勧めします。」

組織がデータから有用な洞察を引き出そうと試みて失敗した場合、まずすべきことは、失敗と反復がプロセスの一部であることを受け入れることです。しかし、機械学習をより巧みに利用することで、成功の可能性を最大限に高めることができます。機械学習を使用する 8 つの方法は次のとおりです。

解決したい問題から始めましょう。データに直接飛び込んで、すぐに役立つ情報を発見できると期待するのは間違ったアプローチです。データ調査への適切なアプローチは、ビジネス成果とデータ関連の質問を結び付ける適切なパフォーマンス測定基準を特定することから始まります。ただし、選択された基準は適切なものでなければなりません。たとえば、DXC が最近メディア企業と協力して加入者が離れていく理由を説明したとき、最も直感的な指標は「加入者ベース」でした。関連する指標はユーザーあたりの平均収益 (ARPU) であり、これは収益の増加という会社のより大きなビジネス目標に直接結びついていることがわかりました。

機械学習プロセスを産業化します。 「ビッグデータ分析のプロセス全体が産業化されていない」と、製造、通信、自動車、航空、エネルギー、金融サービス、ヘルスケアなどさまざまな業界をサポートする研究室を持つラガヴェンドラ氏は言う。 「多くの場合、分析を何度も繰り返したり、拡張に失敗したりします。」DXC は、シンプルで効率的な学習モデルである産業化された機械学習を強く支持しています。DXC は、データの抽出とクリーニングからアルゴリズムの構築、実稼働への導入、有用な情報の取得まで、分析のすべての段階が、エンタープライズ テクノロジーで再利用および展開可能であるべきだと考えています。

サイロについて心配する必要はありません。サイロは、統合されたデータ プールへのアクセスを妨げるため、多くの企業のデータ マイニング プロジェクトにとって悩みの種となっています。しかし、サイロは一部の人が考えるほど大きな障害ではありません。 「インテリジェントなデータとプラットフォーム戦略があれば、サイロについてそれほど心配する必要はありません」と Raghavendra 氏は言います。つまり、解決したい問題でなければ、心配する必要はないということです。ただし、さまざまなデータ ソースを統合することで、後で発生する問題を解決できるように準備しておく必要があります。 「柔軟でモジュール化されたプラットフォームにより、必要に応じてデータを統合できます」とラガヴェンドラ氏は付け加えた。

外部プログラムについて考えてみましょう。必ずしもすべての情報、才能、分析、知恵が揃っているわけではありません。これはエコシステムの問題であり、周囲の可能性を活用できる者が勝利するでしょう。クラウドソーシングのデータ サイエンティスト、機械学習、外部データセットはすべて、強力な可能性を秘めています。

データレイクを使用します。データ レイクは、形式に関係なく、既存のデータをすべてそのまま保存できるリポジトリです。ラガヴェンドラ氏は、企業は最初は使い方がわからなくても、すべてのデータをデータレイクに保存すべきだと述べた。しかし、データレイクの構築について考えることから始めないでください。

目標を念頭に置いて探索的データ分析 (EDA) を実行します。データ マイニングの最初の段階は EDA であり、視覚データと非視覚データを要約することを目的としています。 「探索的データ分析はサイロ化されていることが多いといつも感じていました」と、DXC のシニア データ サイエンティストである Bharathan Shamasundar 氏は言います。「EDA の目的は、データ内のパターンに関する洞察を提供し、次のステップが何であるべきかを知らせることです。」しかし、多くの場合、企業は形式的な対応だけをしています。 DXC がエネルギー会社と行った経験は、インテリジェント EDA の重要性を強調しています。この電力会社は、風力タービンで生産されるエネルギー量を正確に予測しようとしていました。この会社が EDA をアルゴリズムに適用したとき、DXC チームは、計算に使用する変数が少ないにもかかわらず、タービンが 95% の時間稼働していると想定していた既存の標準に疑問を呈しました。この経験から、事前に意味のある EDA を行うと、既存のデータに適合するアルゴリズムが見つかる可能性が高くなることが分かりました。

スマート サンプリングを使用します。企業がビッグデータから有用な洞察を得られていない理由の 1 つは、ビッグデータを使いすぎていることです。 「サンプリングという言葉は、不快なものになってしまった」とシャマスンダル氏は言う。「データサンプリングは、データを処理する非常に賢い方法です。」多くの場合、「ビッグデータ」は冗長な情報で満たされているように見えることがある。商品取引会社である DXC では、取引取引の 94% が小規模なデータ サブセットに基づいていたため、保管されているデータの多くが冗長であると判断しました。これは、品質と関連性を評価することがデータ戦略の重要な部分であることを示唆しています。

データ サイエンス イニシアチブのための柔軟な運用モデルを開発します。 Raghavendra 氏は次のようにアドバイスしています。「データ サイエンティストを雇用できないからといって、データ分析プログラムを開始しないでください。」データ サイエンティストの需要は現在供給より 60% 高く、そのギャップが縮まる兆しはありません。企業が十分なデータサイエンティストを配置できない場合は、専門的な分析サポートや「市民データサイエンティスト」を提供するパートナー組織の活用を検討すべきだとラガヴェンドラ氏は述べた。シチズン データ サイエンティストは、雇用主のドメインとビジネス運営を理解しています。データ マイニングの特定のタスクを簡素化する既製の分析プラットフォームを使用して、適切な分析を実行できます。企業が分析を活用して問題を解決するにつれて、パートナーはプログラムの拡張や複数の領域でのより深い機能の構築を支援できます。

これらのガイドラインに従うことで成功の可能性は高まりますが、企業は失敗は現実に起こり得ることを忘れてはなりません。データ サイエンスは、仮説を証明または反証することを目的として科学的手法を使用してデータを研究します。データの活用は研究開発活動として考えるべきです。 「6つか12のアイデアを用意して、同時に取り組む方が良い。すべてがうまくいくとは限らないからだ」と、データクエリを研究するグアルティエリ氏は言う。

データ量が増え続けるにつれて、課題はますます困難になるでしょう。一方、データが多いほど、潜在的な報酬も大きくなります。

DXC の思想的リーダーシップ部門である DXC Edge Forum のリサーチ ディレクター、デイブ・アーロン氏によると、多くの企業は依然として、最も重要な資産は物理的資産と金銭的資産であると考えているそうです。

「今後 10 年間で、企業は情報を資産とみなし、分析および学習プラットフォームを構築し、継続的に改善していくでしょう」とアロン氏は述べました。「モノのインターネットとデータ保護法の強化により、この問題はさらに重要になります。」

病院、公共事業、その他の事業を問わず、データから利益を得るには、慎重なアプローチと、科学的手法を使用し尊重するという断固たる決意が必要です。

<<:  医師は依然として自分の経験をより信頼しています。病院はビッグデータの収集と機械学習の過負荷の問題をどのように解決するのでしょうか?

>>:  ディープラーニングを使って夢に現れる物体を分析する

ブログ    

推薦する

ChatGPTが公式検出ツールを削除、AIテキストは識別できないことを認める

OpenAI は、何の発表もなく、ひっそりと AI テキスト検出ツールをシャットダウンし、ページは直...

IDCレポート:ジェネレーティブAIは爆発的な産業探査の時代に入り、技術供給側は商業化の初期段階にある

9月22日、IDCコンサルティングの公式WeChatアカウントによると、2023年下半期以降、ますま...

自動運転車が公道を走るのを妨げているものは何でしょうか?

イーロン・マスク氏は、テスラが2020年末までに完全自動運転車を開発すると繰り返し強調している。 「...

IT運用保守プラットフォームアルゴリズムの背後にある2つの「神の助け」

[51CTO.comからの原文] インテリジェント運用保守(AIops)は、IT運用保守の分野で最...

人工知能とクラウドコンピューティングの組み合わせは、企業ビジネスの飛躍的成長をどのように促進するのでしょうか?

Statistaの最近のレポートによると、「AI市場の世界的価値は2025年までに年間890億ドル...

貧困が私を訓練した

1. 事前のトレーニングは必要ですか?事前トレーニングの効果はすぐに現れますが、必要なリソースが法外...

ソフトウェア開発における人工知能: 自動化と最適化

最先端技術である人工知能(AI)は、さまざまな分野で大きな可能性を見せています。ソフトウェア開発の分...

新しい研究:医療AIが新たな統合失調症患者の治療効果をほぼ盲検で評価

1月12日、新たな研究により、統合失調症患者の治療で医師を支援するために使用されるコンピューターアル...

予測トークンの速度が2倍になりました! Transformerの新しいデコードアルゴリズムは人気がある、Alpacaチームより

アルパカチームの新たな研究は大ヒットとなっている。彼らは、モデルが 100 個のトークンを 1.5 ...

クラウドネットワークとAIに焦点を当てると、3大通信事業者の財務報告はどのようなことを明らかにするのでしょうか。

少し前に、中国移動、中国聯通、中国電信の3大通信事業者が2023年第2四半期の財務報告書を発表しまし...

畳み込みニューラル ネットワークの設計を始めたいですか?これは包括的なデザインガイドです

画像分類を始めたいが、どこから始めればよいか分からない。どの事前トレーニング済みネットワークを使用す...

スマートカーシステムへの生体認証技術の統合

近年、自動車業界はインテリジェント車両システムの出現により大きな変化を遂げています。これらのシステム...

...

在庫 | 2019 年に最も注目された人工知能と機械学習のスタートアップ 10 社

ベンチャーキャピタル投資に関する最新データが示すところによれば、投資家は人工知能や機械学習のスタート...