専門家の意見: AIアプリケーションでは、ビッグデータよりもワイドデータが価値がある

専門家の意見: AIアプリケーションでは、ビッグデータよりもワイドデータが価値がある

今日の急速に変化するデジタル世界では、データの使用は進化し続けており、企業は構造化データと非構造化データの膨大なリポジトリから得られる洞察をより深く理解するのに役立っています。しかし、ビッグデータはビジネスに不可欠な分析を提供できる一方で、そのデータは主に過去に何が起こったかを示すために使用されます。予測分析や処方分析を実行する際には、幅広いデータを考慮する必要がますます高まっています。

ここで AI が活躍できるのですが、ここでビッグデータと AI のニーズが分岐します。ビッグデータは、量、速度、多様性という 3 つの要素によって定義されます。ボリュームは利用可能なデータのサイズを指し、速度はデータが到着して処理される速度を指します。

しかし、企業が AI を活用して予測目的でデータを効果的に活用するには、あらゆる種類のデータが必要です。 AI アプリケーションがさまざまな分野で普及するにつれて、多様なデータセットにアクセスできる能力が重要になり、AI アルゴリズムの触媒として機能します。言い換えれば、データをあまり単調にせず、より多様なものにしましょう。

私たちは、組織の内部、外部、構造化データ、非構造化データなど、さまざまな形式でこのデータを「ワイド データ」と呼んでいます。グローバル化した経済では、ビジネスのパフォーマンスは多くのパラメータに依存するため、これは非常に重要です。

ビッグデータの応用例として、米国の異なる地域で製品を設計する 2 つの製造工場を見てみましょう。 2 つの工場の地理的な位置は、特に暴風雪などの自然災害が発生した場合に生産に影響を及ぼすことになります。天候やその他のさまざまな外部要因を考慮し、内部データと組み合わせて AI アルゴリズムに入力すると、各製造組織の在庫、サプライ チェーン、需要の予測がより正確になります。データの多様性により関連性が高まり、AI アルゴリズムの学習が向上し、正確な結果を提供できるようになります。

なぜデータ容量ではないのですか?

さまざまな従属変数が不足しているため、データが増えても必ずしもアルゴリズムの学習が向上するわけではありません。理論上は、大量のデータを持つことが AI アプリケーションにとって重要ですが、効率的なアルゴリズムにとっては、データのサイズよりもデータの多様性の方が重要です。

たとえば、私たちはがん患者のデータを予測するプロジェクトに取り組んでいます。研究対象は多くなく、生成されるデータは 150 行のみです。これにより、ふるいにかけるデータの量は比較的少なくなり、ビッグデータとは見なされません。ここで疑問が湧きます。AI アルゴリズムが学習し、がん患者のその後の人生に何が起こるかを予測するのに十分なデータがあるでしょうか? この場合、答えは「はい」です。行数は 150 行しかありませんが、生体認証、バイオセンサー、症状のデータは数千の列で構成されており、膨大なデータ セットになっています。

重要な点は、AI アプリケーションでは、データの量よりもデータの多様性が重要であるということです。

幅広いデータ型

前述したように、さまざまな種類のデータがあり、それらを組み合わせると、次のような幅広いデータになります。

  • 内部的に構造化されたデータ: ERP、CRM システム、さらには財務システムなどのソフトウェア アプリケーション内に存在するデータ。
  • 内部非構造化データ:内部非構造化データの一部であるドキュメント、画像、レポート、チャート、グラフ。
  • 外部データ:天気、社会、経済データ、国勢調査データ、証券取引所データなどの外部ソースからのデータ。
  • 外部の非構造化データ:組織のファイアウォールの外部から発信されるニュース、画像、ビデオなど。

CUPPフレームワーク: データ戦略の提供

AI の導入を成功させるには、AI のベストプラクティスを採用することが重要です。そのようなフレームワークの 1 つが CUPP です。これは、Collect (収集)、Unify (統合)、Process (処理)、Present (提示) の頭文字をとったものです。これら 4 つのステップを展開することが、組織が AI の導入を始める典型的な方法です。

データ戦略やデータ プラットフォームを持たない従来の企業も、CUPP のようなフレームワークを作成することでメリットを得ることができます。データの真実性や正確性を確保する場合にもフレームワークは重要です。組織が理想的な結果を決定するには、クリーンで高品質なデータが必要であり、正確性によってプロセスが大幅にスピードアップします。

CUPP フレームワークを使用して組織が実行する基本的な手順は次のとおりです。

1. データ調査から始める

データ調査アプローチを活用して、組織の内部と外部の両方で所有するデータ資産を検出します。

この計画プロセスの一部には、構造化データと非構造化データのソースを特定することが含まれます。多くの組織は、自社が保有する非構造化データの量に驚くかもしれません。データ調査を実施することで、すべてのデータ資産の在庫を把握することができます。

2. データ資産を理解する

モデリングを行う前に、組織がすでに持っているものを理解することが重要です。これは AI のベストプラクティスの開発に役立ちますが、少しの忍耐が必要です。これは AI アプリケーションの導入の基盤となり、機能の ROI を実現します。

企業は、社内外の構造化データと非構造化データを収集し、統合するための戦略も検討する必要があります。

3. 機械学習と自然言語処理を使用して、非構造化コンテンツを変換および理解する

組織は取得した非構造化データを自然言語処理を使用して構造化コンテンツに変換し、データをトレーニングできます。

組織は、非構造化コンテンツを恐れるのではなく、むしろ奨励すべきです。現在、このコンテンツを非常に有意義に活用するためのテクノロジーがいくつか利用可能になっているからです。

幅広いデータを活用する必要性についてのポイント

幅広いデータがあれば、AI の導入をより迅速に開始することができ、組織がさまざまな大規模および小規模、非構造化および構造化データ ソースから得た洞察を文脈に沿って解釈する上で不可欠です。テクノロジーが進化、発展するにつれ、データの役割と価値を無視できる企業はなくなり、さまざまなデータの取得と分析を中心としたデータ戦略を策定する必要が出てきます。

<<:  フィンテックとAI: 金融におけるAIの活用方法

>>:  物議を醸すClearview AI:顔認識アプリケーションは民間企業には販売されなくなった

ブログ    

推薦する

...

インドの農業変革における人工知能の役割

農業はインドの人口の約58%の生計を支えています。漁業、林業、農業の総付加価値は2020年度で194...

第一線のSASEがエッジAIを護衛

データの共有と流通が厳格な要求になると、もともと孤立していたビジネス ネットワークは境界を打ち破り、...

医療機器製造における3つの大きなトレンド

医療製造にロボット工学と自動化を導入したダヴィンチ ロボット手術システムが発売されてから 20 年が...

...

1日で13.5%も急落!オラクル株は2002年以来最大の下落

オラクルの株価は現地時間9月12日に13.5%急落し、20年以上で最大の下落を記録した。その理由は、...

人工知能が人間の仕事の6%を奪い、置き換える可能性がある

[[187207]]人工知能は人類を滅ぼすことはないかもしれないが、人工知能が人間の仕事を奪うのでは...

AI、メタバース、職場におけるDEI

AI とメタバースが仕事を変えるにつれて、リーダーは DEI に影響を与える新興テクノロジーの 3...

エンタープライズ チャットボットは超パーソナライズされたエクスペリエンスを提供できますか?

エンタープライズ チャットボットは脳死状態です。彼らには認知力も深みもなく、リアルタイムの概念や状況...

...

ChatGPT も「逆方向に学習」するのでしょうか?

継続的に学習することで向上していくことは、現代の AI の大きなセールスポイントの 1 つです。しか...

NeurIPS 2023 レビュー: ビッグモデルが最も注目されており、清華大学 ToT 思考ツリーがリストに載る

最近、米国のトップ 10 テクノロジー ブログの 1 つである Latent Space が、終了し...

将来スマートフォンは消滅するのでしょうか? Huaweiがそれに代わるスマートフォンを発売します!

スマートフォンの登場と普及は人々の生活に大きな楽しさと便利さをもたらしました。携帯電話がもっとスマー...

4Dミリ波レーダーSLAMソリューション研究

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...