専門家の意見: AIアプリケーションでは、ビッグデータよりもワイドデータが価値がある

専門家の意見: AIアプリケーションでは、ビッグデータよりもワイドデータが価値がある

今日の急速に変化するデジタル世界では、データの使用は進化し続けており、企業は構造化データと非構造化データの膨大なリポジトリから得られる洞察をより深く理解するのに役立っています。しかし、ビッグデータはビジネスに不可欠な分析を提供できる一方で、そのデータは主に過去に何が起こったかを示すために使用されます。予測分析や処方分析を実行する際には、幅広いデータを考慮する必要がますます高まっています。

ここで AI が活躍できるのですが、ここでビッグデータと AI のニーズが分岐します。ビッグデータは、量、速度、多様性という 3 つの要素によって定義されます。ボリュームは利用可能なデータのサイズを指し、速度はデータが到着して処理される速度を指します。

しかし、企業が AI を活用して予測目的でデータを効果的に活用するには、あらゆる種類のデータが必要です。 AI アプリケーションがさまざまな分野で普及するにつれて、多様なデータセットにアクセスできる能力が重要になり、AI アルゴリズムの触媒として機能します。言い換えれば、データをあまり単調にせず、より多様なものにしましょう。

私たちは、組織の内部、外部、構造化データ、非構造化データなど、さまざまな形式でこのデータを「ワイド データ」と呼んでいます。グローバル化した経済では、ビジネスのパフォーマンスは多くのパラメータに依存するため、これは非常に重要です。

ビッグデータの応用例として、米国の異なる地域で製品を設計する 2 つの製造工場を見てみましょう。 2 つの工場の地理的な位置は、特に暴風雪などの自然災害が発生した場合に生産に影響を及ぼすことになります。天候やその他のさまざまな外部要因を考慮し、内部データと組み合わせて AI アルゴリズムに入力すると、各製造組織の在庫、サプライ チェーン、需要の予測がより正確になります。データの多様性により関連性が高まり、AI アルゴリズムの学習が向上し、正確な結果を提供できるようになります。

なぜデータ容量ではないのですか?

さまざまな従属変数が不足しているため、データが増えても必ずしもアルゴリズムの学習が向上するわけではありません。理論上は、大量のデータを持つことが AI アプリケーションにとって重要ですが、効率的なアルゴリズムにとっては、データのサイズよりもデータの多様性の方が重要です。

たとえば、私たちはがん患者のデータを予測するプロジェクトに取り組んでいます。研究対象は多くなく、生成されるデータは 150 行のみです。これにより、ふるいにかけるデータの量は比較的少なくなり、ビッグデータとは見なされません。ここで疑問が湧きます。AI アルゴリズムが学習し、がん患者のその後の人生に何が起こるかを予測するのに十分なデータがあるでしょうか? この場合、答えは「はい」です。行数は 150 行しかありませんが、生体認証、バイオセンサー、症状のデータは数千の列で構成されており、膨大なデータ セットになっています。

重要な点は、AI アプリケーションでは、データの量よりもデータの多様性が重要であるということです。

幅広いデータ型

前述したように、さまざまな種類のデータがあり、それらを組み合わせると、次のような幅広いデータになります。

  • 内部的に構造化されたデータ: ERP、CRM システム、さらには財務システムなどのソフトウェア アプリケーション内に存在するデータ。
  • 内部非構造化データ:内部非構造化データの一部であるドキュメント、画像、レポート、チャート、グラフ。
  • 外部データ:天気、社会、経済データ、国勢調査データ、証券取引所データなどの外部ソースからのデータ。
  • 外部の非構造化データ:組織のファイアウォールの外部から発信されるニュース、画像、ビデオなど。

CUPPフレームワーク: データ戦略の提供

AI の導入を成功させるには、AI のベストプラクティスを採用することが重要です。そのようなフレームワークの 1 つが CUPP です。これは、Collect (収集)、Unify (統合)、Process (処理)、Present (提示) の頭文字をとったものです。これら 4 つのステップを展開することが、組織が AI の導入を始める典型的な方法です。

データ戦略やデータ プラットフォームを持たない従来の企業も、CUPP のようなフレームワークを作成することでメリットを得ることができます。データの真実性や正確性を確保する場合にもフレームワークは重要です。組織が理想的な結果を決定するには、クリーンで高品質なデータが必要であり、正確性によってプロセスが大幅にスピードアップします。

CUPP フレームワークを使用して組織が実行する基本的な手順は次のとおりです。

1. データ調査から始める

データ調査アプローチを活用して、組織の内部と外部の両方で所有するデータ資産を検出します。

この計画プロセスの一部には、構造化データと非構造化データのソースを特定することが含まれます。多くの組織は、自社が保有する非構造化データの量に驚くかもしれません。データ調査を実施することで、すべてのデータ資産の在庫を把握することができます。

2. データ資産を理解する

モデリングを行う前に、組織がすでに持っているものを理解することが重要です。これは AI のベストプラクティスの開発に役立ちますが、少しの忍耐が必要です。これは AI アプリケーションの導入の基盤となり、機能の ROI を実現します。

企業は、社内外の構造化データと非構造化データを収集し、統合するための戦略も検討する必要があります。

3. 機械学習と自然言語処理を使用して、非構造化コンテンツを変換および理解する

組織は取得した非構造化データを自然言語処理を使用して構造化コンテンツに変換し、データをトレーニングできます。

組織は、非構造化コンテンツを恐れるのではなく、むしろ奨励すべきです。現在、このコンテンツを非常に有意義に活用するためのテクノロジーがいくつか利用可能になっているからです。

幅広いデータを活用する必要性についてのポイント

幅広いデータがあれば、AI の導入をより迅速に開始することができ、組織がさまざまな大規模および小規模、非構造化および構造化データ ソースから得た洞察を文脈に沿って解釈する上で不可欠です。テクノロジーが進化、発展するにつれ、データの役割と価値を無視できる企業はなくなり、さまざまなデータの取得と分析を中心としたデータ戦略を策定する必要が出てきます。

<<:  フィンテックとAI: 金融におけるAIの活用方法

>>:  物議を醸すClearview AI:顔認識アプリケーションは民間企業には販売されなくなった

ブログ    

推薦する

「AI論文のオープンソースコードの義務化に反対する理由」

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

上位985大学の「人工知能」関連学部・専攻一覧!ぜひ集めてみてください!

今最もホットな分野といえば、間違いなく「人工知能」でしょう。給与面でも人材ギャップの面でも、この分野...

安全なパスワード保存の業界標準: bcrypt アルゴリズム

パスワードを安全に保護するための標準アルゴリズムである bcrypt アルゴリズムについて説明します...

ヘッドライトから始めて、自動運転はどのようにして攻撃性を排除するのでしょうか?

これは、鞭で打たれるとどんどん速く回転するコマのような「高離職率」社会です。技術推論において非常に重...

ワイツマンとNVIDIAは、自然言語を使って写真を編集できるText2LIVEを共同でリリースした。

Photoshop のようなソフトウェアを使用することは、創造的な作業とみなされますか、それとも反...

人工知能がデータセンターを変革

[[253094]]がんの早期発見から国境を越えた人間の言語理解、リアルタイムの高解像度ビデオでの顔...

Bard と ChatGPT: 2 つの言語モデルの頂点対決

Bard と ChatGPT は、それぞれ Google AI と OpenAI によって開発された...

強化学習のゴッドファーザーによる新しい論文では、意思決定エージェントの普遍的なモデルを探求しています。学際的な共通点を見つける

強化学習と意思決定に関する学際会議 (RLDM) の重要な前提は、複数の分野が長期にわたる目標指向の...

2023年の生成AIの包括的なレビュー

2023年には、生成AIが開発者のアプリケーション構築支援において飛躍的な進歩を遂げ、大手ツールベン...

完全なルーティングアルゴリズムの設計目標の分析

ルーティング アルゴリズムには通常、次の 1 つ以上の設計目標があります。最適化最適化とは、メトリッ...

Point Transformer V3: よりシンプルに、より速く、より強力に!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

微調整の必要はありませんか? 3つのサンプル、LLMアライメントを修正するための1つのヒント、エンジニアのヒント:すべて戻る

教師なしテキストコーパスのみで事前トレーニングされた基本的な大規模言語モデル (LLM) は、通常、...

マイクロソフトは、兆パラメータのAIモデルのトレーニングに必要なGPUを4,000から800に削減しました。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

10億の顔データが完全に削除されました! Facebookが顔認識ツールを廃止

[[434362]] 11月3日、Facebookは写真のタグ付けに顔認識機能を使うのをやめると発表...