ビッグデータの本当の問題と、なぜ機械学習だけがそれを解決できるのか

ビッグデータの本当の問題と、なぜ機械学習だけがそれを解決できるのか

多くの企業が、データの取得から洞察の獲得まで、スムーズに実行されるパイプラインの構築に依然として苦労しているのはなぜでしょうか? 企業は、データ分析とビジネス予測を行うために、機械学習アルゴリズムに投資して導入したいと考えています。

しかし、必然的に、アルゴリズムは魔法ではないことを認識する必要があります。ジャンク データを入力した場合、生成される洞察は一流のものにはなりません。そこでデータ サイエンティストを何人か雇いますが、通常、彼らはデータのクリーニングに時間の 90% を費やし、分析には 10% しか残りません。

[[273940]]

このプロセスの欠点は、企業がターミナルアルゴリズムを使用した機械学習を採用したがる点です。 Tamrの共同創業者兼CEOのアンディ・パーマー氏は、膨大なデータセットの処理を人間に頼るのではなく、データクリーニングの初期段階で可能な限り機械学習を適用すべきだと語った。同社は、機械学習を使用して組織がデータサイロを打破できるよう支援します。

多くの企業はビッグデータ収集システムに多額の費用を費やしています。彼らがデータの質よりも量を重視していることは明らかです。

「大企業で働く人なら誰でも、社内システムから得られるデータのほとんどがシンプルでわかりやすいものだと言うでしょう」とパーマー氏は語った。

Tamr の共同設立者兼 CTO である Andy Palmer 氏と、SiliconSLE Media のモバイル ライブストリーミング スタジオ theCUBE のホストである Michael Stonebraker 氏が、マサチューセッツ州ケンブリッジで開催された最近の MIT CDOIQ ワークショップで Dave Vellante 氏および Paul Gillin 氏と議論しました。彼らは、ビッグデータへの機械学習の導入について、またスタートアップ企業が従来の企業よりも優れた、よりスケーラブルなビッグデータソリューションを提供できると Tamr が考える理由について議論しました。

ビッグデータのクリーニングと整理

パーマー氏とストーンブレーカー氏は長年にわたりビッグデータ技術に注力してきました。 2007 年の早い段階で、Apache Hadoop ビッグデータ フレームワークは多くの人が期待するような結果をもたらさないだろうと予測されていました。

「ビッグデータが大惨事になるというのは、少し過激すぎる」とパーマー氏は語った。

これは大規模なデータセットが悪いと言っているわけではなく、明らかにビッグデータは分析モデルや人工知能のトレーニングに必要なツールだ、と彼は述べた。データ量が十分に多ければ、残りの分析や AI の側面はうまくいくだろうと考える人もいますが、多くの企業はこれに失望しています。

企業は現在、データの品質を無視できないことを認識しています。また、データ サイエンティストはデータのクリーニングに時間の 80% から 90% 以上を費やすべきではなく、データ分析にはより優れた高速な AI アプローチを採用する必要があることもわかっています。

パーマー氏によると、その答えは、機械学習を、こうした大規模で魅力のないタスクを実行するための非常に実用的なツールとみなすことだという。多くのベンダーは、予測エンジンや推奨エンジンなどのソフトウェアのマーケティングをより魅力的にするために機械学習を使用しています。 Tamr は、誰かが何かを分析、予測、マーケティング、販売する前にビッグ データをクリーニングして整理するという、あまり魅力的ではない用途にこれを使用しています。

機械学習は大規模なデータを処理できる

今日、データスワンプ問題に対する解決策の提案は数多くあります。多くのテクノロジー企業が独自の製品を発売したり、アップデートしたりしています。しかし、ストーンブレーカー氏は、これらのシステムで一般的に使用されている主な技術には重大な欠陥があると指摘しています。これらの従来のテクノロジーには、ETL (抽出、変換、ロード) システムやマスター データ管理システムが含まれます。しかし、拡張できないのが欠点です。

ETL は、スマートなビジネスがユーザーが必要とするすべてのデータ ソースに対してグローバル データ モデルを提供するという前提に基づいています。次に、各ビジネス ユニットに、取得したデータ、そのデータをグローバル データ モデルで取得する方法、データ ウェアハウスにロードする方法などを確認させます。ストーンブレーカー氏は、手作業が多いプロセスはスケールしないことが多いと述べた。多くの場合、10 個または 20 個のデータ ソースをデータ ウェアハウスに統合します。

では、このデータは十分でしょうか? 実際の企業を例に挙げてみましょう。 TAMR のクライアントであるトヨタ モーター ヨーロッパ (TME) は、さまざまな国にディーラーを展開しています。誰かがスペインでトヨタを購入し、それを運転してフランスまで行ったとしても、フランスのディーラーはそれについて何も知りません。

トヨタモーターヨーロッパ(TME)には、合計で 50 の言語で 4,000 万件のレコードを含む 250 の個別の顧客データベースがあります。同社は、この顧客のサービス問題を解決するために、それらを単一の顧客データベースに統合しています。機械学習は、この目標を達成するための合理的なアプローチを提供します。 「これほどの規模に対応できる ETL システムは見たことがありません」とストーンブレーカー氏は語った。

ストーンブレーカー氏は、マスター データ管理 (MDM) が拡張できない主な理由は、ルールベースであるためだと説明しました。 Tamr の別の顧客である General Electric は、昨年 2,000 万件の取引があった取引支出を分析し、そのすべてをルールベースの階層に分類したいと考えています。

「GE には 500 のルールがあり、そのうち 18 のルールを使って 2,000 万件の取引のうち 200 万件を分類しましたが、残りの 400 余りのルールでは、その 18 のルールほど迅速に分類することはできませんでした。」

それは収穫逓減の法則だと彼は指摘した。 「企業は自分たちが理解できない多くのルールを書かなければならず、機械学習がなければそれは大変なことになるだろう」と彼は語った。

ストーンブレーカー氏は、機械学習技術が万能薬ではないことを認めています。真にデータ駆動型になるには、技術的調整と文化的な調整の両方が必要です。実際、NewVantage Partners の調査によると、調査対象となった経営幹部の 77% が、市場に新しいソフトウェアが大量に流入しているにもかかわらず、組織がビッグデータ/AI イニシアチブを導入するのが難しいと回答しています。しかし、これは昨年の調査より増加している。幹部らは機械学習の導入に対する障壁を数多く挙げたが、その95%は技術的なものではなく、文化的なものや組織的なものだった。 「これについては計画を立てる必要があるが、ほとんどの企業はビッグデータを計画して処理していない」とガートナーのアナリスト、ニック・ヒューデッカー氏は語った。

それでも、テクノロジーは重要であり、ある程度は役に立つかもしれないとストーンブレーカー氏は言う。このケーススタディは、GE のデータ サイエンティストがハイブリッド車やガスタービンの開発と修理ではなく、フィルタリングと並べ替えに最大 90 パーセントの時間を費やしていることを示している。ビッグデータを現実世界のビジネスに役立てるには、機械学習が最適な方法です。

「従来の大規模なデータ統合技術は単純に機能しないことが人々に理解されているため、人間を機械学習に置き換える必要がある」と彼は語った。

多くの企業がこれを考慮し、機械学習を自社製品の中核にしています。 「一般的に、従来のベンダーは時代から10年遅れているが、スタートアップは最先端の製品を提供できる」とストーンブレーカー氏は言う。

この「最先端」の技術は、データから簡単に収益を得る方法を提供してくれるのでしょうか?データ沼で無駄にしていた時間を補ってくれるのでしょうか?

「私たちは、データをより速く消費する段階に入りつつあります」とパーマー氏は言います。「この段階が、最終的にエンタープライズ データ ウェアハウスの高い期待に応えることになるでしょうか? わかりません。しかし、確実に近づいています。」

<<:  未来を垣間見るのに役立つ9つの主要な人工知能開発トレンド

>>:  中国の大学の人工知能専攻ランキング:清華大学、浙江大学、上海交通大学がトップ3にランクイン

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

OpenAIの初の開発者会議が事前に「公開」され、新しいChatGPTプロトタイプGizmoが公開された

今年9月、OpenAIは初の開発者会議「OpenAI DevDay」を正式に発表した。その時、Ope...

10年後の市場規模は1.3兆ドル。「モデル電源時代」到来

半年以上にわたる大規模なモデル嵐の後、AIGC 市場には新たな変化が起こり始めました。クールな技術デ...

Googleは「ロボット工学の3原則」をシステムに導入:ロボットが人間に危害を加えることを厳しく防止

1月5日、有名なSF作家アイザック・アシモフが「ロボット工学三原則」を提唱しました。 Googleは...

...

JavaScript におけるいくつかの一般的なソートアルゴリズムの共有

説明する各ブラウザテストから取得されるデータは異なります。たとえば、Chrome を使用してテストす...

ビッグデータと人工知能の違いすら分からないのに、あなたはまだトップへの道を歩んでいる

ビッグデータと AI は公平に比較​​できるでしょうか? ある程度は公平ですが、まずはその違いを明確...

...

...

ヴィンセントの画像プロンプトはもう退屈でも長くもありません! LLM強化拡散モデル、簡単な文章で高品質の画像を生成できる

拡散モデルは、テキストプロンプトのガイダンスに基づいて高品質でコンテンツが豊富な画像を生成できる、主...

アンドリュー・ン氏が AI 変革ガイドをリリース: CEO に 5 つのステップで AI 変革を呼びかける

人工知能は間違いなくエンジニアや研究者を変えたが、自社の将来を左右するCEOたちは何をより重視してい...

長いテキストの復号化畳み込みニューラルネットワークアーキテクチャ

導入まず正直に言うと、しばらくの間、私はディープラーニングをあまり理解できませんでした。関連する研究...

5G と AI のユースケース - 5G が人工知能の実装にどのように役立つか

マイケル・バクスター氏は、5Gは人工知能の可能性を解き放つだろうと語った。しかし、AI と 5G は...

今後10年間で、AIは「スモールデータ」時代の到来を告げるでしょうか?

AI 研究に携わる人なら誰でも、データが AI の開発において重要な役割を果たすことをよく知ってい...

マイクロソフトは、ほぼ100年前の量子理論の新たな証明を示した。

量子コンピューティングは、人類が直面している最も困難な課題のいくつかを解決するのに役立つと期待されて...

Transformerのランクを下げ、LLMのパフォーマンスを低下させることなく、特定のレイヤーのコンポーネントの90%以上を削除する

大規模モデルの時代において、Transformer は科学研究分野全体を一手にサポートします。 Tr...