今日の急速に変化するデジタル世界では、データの使用は進化し続けており、企業は構造化データと非構造化データの膨大なリポジトリから得られる洞察をより深く理解するのに役立っています。しかし、ビッグデータはビジネスに不可欠な分析を提供できる一方で、そのデータは主に過去に何が起こったかを示すために使用されます。予測分析や処方分析を実行する際には、幅広いデータを考慮する必要がますます高まっています。 ここで AI が活躍できるのですが、ここでビッグデータと AI のニーズが分岐します。ビッグデータは、量、速度、多様性という 3 つの要素によって定義されます。ボリュームは利用可能なデータのサイズを指し、速度はデータが到着して処理される速度を指します。 しかし、企業が AI を活用して予測目的でデータを効果的に活用するには、あらゆる種類のデータが必要です。 AI アプリケーションがさまざまな分野で普及するにつれて、多様なデータセットにアクセスできる能力が重要になり、AI アルゴリズムの触媒として機能します。言い換えれば、データをあまり単調にせず、より多様なものにしましょう。 私たちは、組織の内部、外部、構造化データ、非構造化データなど、さまざまな形式でこのデータを「ワイド データ」と呼んでいます。グローバル化した経済では、ビジネスのパフォーマンスは多くのパラメータに依存するため、これは非常に重要です。 ビッグデータの応用例として、米国の異なる地域で製品を設計する 2 つの製造工場を見てみましょう。 2 つの工場の地理的な位置は、特に暴風雪などの自然災害が発生した場合に生産に影響を及ぼすことになります。天候やその他のさまざまな外部要因を考慮し、内部データと組み合わせて AI アルゴリズムに入力すると、各製造組織の在庫、サプライ チェーン、需要の予測がより正確になります。データの多様性により関連性が高まり、AI アルゴリズムの学習が向上し、正確な結果を提供できるようになります。 なぜデータ容量ではないのですか?さまざまな従属変数が不足しているため、データが増えても必ずしもアルゴリズムの学習が向上するわけではありません。理論上は、大量のデータを持つことが AI アプリケーションにとって重要ですが、効率的なアルゴリズムにとっては、データのサイズよりもデータの多様性の方が重要です。 たとえば、私たちはがん患者のデータを予測するプロジェクトに取り組んでいます。研究対象は多くなく、生成されるデータは 150 行のみです。これにより、ふるいにかけるデータの量は比較的少なくなり、ビッグデータとは見なされません。ここで疑問が湧きます。AI アルゴリズムが学習し、がん患者のその後の人生に何が起こるかを予測するのに十分なデータがあるでしょうか? この場合、答えは「はい」です。行数は 150 行しかありませんが、生体認証、バイオセンサー、症状のデータは数千の列で構成されており、膨大なデータ セットになっています。 重要な点は、AI アプリケーションでは、データの量よりもデータの多様性が重要であるということです。 幅広いデータ型前述したように、さまざまな種類のデータがあり、それらを組み合わせると、次のような幅広いデータになります。
CUPPフレームワーク: データ戦略の提供AI の導入を成功させるには、AI のベストプラクティスを採用することが重要です。そのようなフレームワークの 1 つが CUPP です。これは、Collect (収集)、Unify (統合)、Process (処理)、Present (提示) の頭文字をとったものです。これら 4 つのステップを展開することが、組織が AI の導入を始める典型的な方法です。 データ戦略やデータ プラットフォームを持たない従来の企業も、CUPP のようなフレームワークを作成することでメリットを得ることができます。データの真実性や正確性を確保する場合にもフレームワークは重要です。組織が理想的な結果を決定するには、クリーンで高品質なデータが必要であり、正確性によってプロセスが大幅にスピードアップします。 CUPP フレームワークを使用して組織が実行する基本的な手順は次のとおりです。 1. データ調査から始めるデータ調査アプローチを活用して、組織の内部と外部の両方で所有するデータ資産を検出します。 この計画プロセスの一部には、構造化データと非構造化データのソースを特定することが含まれます。多くの組織は、自社が保有する非構造化データの量に驚くかもしれません。データ調査を実施することで、すべてのデータ資産の在庫を把握することができます。 2. データ資産を理解するモデリングを行う前に、組織がすでに持っているものを理解することが重要です。これは AI のベストプラクティスの開発に役立ちますが、少しの忍耐が必要です。これは AI アプリケーションの導入の基盤となり、機能の ROI を実現します。 企業は、社内外の構造化データと非構造化データを収集し、統合するための戦略も検討する必要があります。 3. 機械学習と自然言語処理を使用して、非構造化コンテンツを変換および理解する組織は取得した非構造化データを自然言語処理を使用して構造化コンテンツに変換し、データをトレーニングできます。 組織は、非構造化コンテンツを恐れるのではなく、むしろ奨励すべきです。現在、このコンテンツを非常に有意義に活用するためのテクノロジーがいくつか利用可能になっているからです。 幅広いデータを活用する必要性についてのポイント幅広いデータがあれば、AI の導入をより迅速に開始することができ、組織がさまざまな大規模および小規模、非構造化および構造化データ ソースから得た洞察を文脈に沿って解釈する上で不可欠です。テクノロジーが進化、発展するにつれ、データの役割と価値を無視できる企業はなくなり、さまざまなデータの取得と分析を中心としたデータ戦略を策定する必要が出てきます。 |
>>: 物議を醸すClearview AI:顔認識アプリケーションは民間企業には販売されなくなった
テクノロジーは私たちの生活、仕事、遊び方を変えており、教育も例外ではありません。機械学習は他の分野を...
他のインターネットの概念と同様に、AI は人気が出ると数え切れないほどの支持者を獲得しました。彼らは...
1月8日、CES 2024の期間中、フランスのスマートヘルステクノロジー企業Baracodaが世界初...
著者 | 崔昊レビュー | Chonglouまとめこの記事では、パーソナライズされた仮想キャラクター...
清華大学は、世界初の異種融合脳型コンピューティングチップ「天機チップ」を開発しました。このチップで駆...
マイクロソフトは10月25日、2024年第1四半期の財務報告を発表した。AI製品とクラウド事業の成長...
海外メディアの報道によると、1月31日、イタリアの規制当局は、OpenAIの人工知能チャットボット「...
近年、デジタル変革の波に牽引され、自動車業界は着実な変革、アップグレード、ビジネスの再編を遂げていま...
現時点で最もホットなコンセプトは何かと聞かれれば、それは人工知能であるに違いないと私は思います。 A...
[[399343]]ニューラル ネットワークは実際には表現を学習しています。CV の分野では、優れ...
[[258322]]機械学習は計算知能とも呼ばれ、近年いくつかの技術的障壁を突破し、ロボット工学、機...
最近の大物モデルの多くは数学が得意だと主張していますが、本当に才能があるのは誰でしょうか?テスト問題...