データが生成型 AI に対応できるようにする 7 つの方法

翻訳者 |ブガッティ

レビュー | Chonglou

誰もが生成AIと大規模言語モデルの力を活用したいと考えていますが、難問があります。 AIに対する高い期待に応えるには、高品質で実用的なデータが必要ですが、多くの組織はそれを達成できていません。

ジョー・カゼルタ氏とケイヴァン・ロウシャンキッシュ氏が共同執筆した最近のマッキンゼーのレポートでは、多くの組織が生成型AIに関連したものを求めていると指摘されています。しかし、このプレッシャーには他の問題も伴います。データが生成AIに対応していない場合は、ビジネスも生成AIに対応していないことになります。

報告書の著者は、 IT 部門とデータマネージャーは、生成AIに対するデータの影響を明確に理解する必要があると示唆しています。データは、既存のサービスを利用して、アプリケーションプログラミングインターフェイスまたは企業独自のモデルを通じて使用される場合がありますが、これには多額の投資だけでなく、複雑なデータタグ付けおよび注釈戦略も必要になります。

カゼルタ氏と彼のチームによると、おそらく最も難しいのは、チャット、ビデオ、コードなどの非構造化データを処理する生成AIの能力です。データ指向の組織は、これまで、表内のデータなどの構造化されたデータしか処理できませんでした。

このデータの変化は、組織が生成AI プロジェクトをサポートするために全体的なデータアーキテクチャを再考する必要があることを意味します。これは古いニュースのように聞こえるかもしれませんが、企業がこれまでは問題にならなかったシステムの脆弱性が、生成AIによって大きな問題になります。強力なデータ基盤がなければ、生成AIの利点の多くは実現できません。

業界全体で、リーダーたちは、生成 AI などの新たな課題に対処するために必要な大量のデータ流入を組織が処理できるかどうかについて、懸念を表明する傾向が高まっています。「継続的なイノベーションと技術の進歩によって推進されるデジタル変革は、組織の運営方法を変えることを意味します」と、 Faction Inc.の技術および運営担当副社長、ジェフ・ヘラー氏は述べています。

さらに、より効率的で応答性の高いデータアーキテクチャの必要性を推進する要因は AI だけではありません。「顧客は今後もカスタマイズされたサービスとコミュニケーションを期待するだろうが、それは当然ながら正確なデータに大きく依存する」とインターゾイドの創設者兼CEOのボブ・ブラウアー氏は語った。

メッセージは明確です。データが負担ではなく貴重な資産であり続けるように、企業が戦略を策定し、高度なテクノロジーを導入する時が来ているのです。

専門家は、急速に台頭しつつあるAI時代に向けてデータを準備するには、考慮すべき要素がいくつかあると示唆しています。

1. データガバナンス戦略を策定する:適切な優先順位、スタッフ、ガバナンス、ツール、管理要件があれば、組織はデータ品質の課題を負担から大きな競争上の優位性へと変えることができます。 AI やその他の取り組みの背後にあるデータに対する組織的なサポートを構築するための第一歩としては、生成AI 、大規模言語モデル、その他の新しい AI ベースのテクノロジーにおける新たなイノベーションをどのように活用して競争上の優位性を獲得できるかを検討するワーキンググループを作成することが考えられます。

2. データストレージ戦略を策定する:すべてのデータを保存する場所を見つけ、簡単に見つけてアクセスできるようにすることが必須です。クアンタムの最高開発責任者ブライアン・パウロウスキー氏は、最近の業界調査で、保存されているデータの半分以上（60%）が非アクティブであり、つまりほとんどアクセスされないか、まったくアクセスされないことがわかったと語った。それでも、企業はこのデータを捨てたくないと考えています。なぜなら、特に生成 AI が広く使用されるようになると、今後数年間でこのデータが貴重なソリューションとビジネス価値をもたらす可能性があると理解しているからです。この課題を解決するには、既存の機能を再評価し、ライフサイクル全体を通じてアクティブデータと非アクティブデータに簡単にアクセスして処理できる最新の自動化ストレージアーキテクチャを構築する必要があります。

3.データ品質戦略を確実に確立する: AI によってもたらされる新たな需要に対応できるようにデータアーキテクチャを準備するには、まず高いデータ品質を戦略上の優先事項にすることから始めます。良いスタートとしては、データ品質プログラム専用の予算とリソースを持つ最高データ責任者または同様の役職を任命することです。

4.進捗状況を確実に測定する:リーダーシップの優先事項には、企業全体のデータを測定し、成功を測定するための指標と目標を確立することが含まれる必要があります。

5.非構造化データを処理する能力を確保する:生成AIモデルでは、データ量が多く、その多くが非構造化されているため、従来の機械学習モデルよりもデータ品質の問題が顕著になり、既存の追跡ツールを使用して追跡することが困難になります。将来的には、生成されるデータ全体の約90 %を非構造化データが占め、世界のストレージ容量は今後 5 年間で年平均 25 % の成長率で増加すると予想されます。この非構造化データは、高解像度のビデオや画像、複雑な医療データ、ゲノム配列、機械学習モデルへの入力、自然界に関する科学的データ（油田やガス田のマッピングなど）、特殊効果、アニメーション、拡張現実などの現実シミュレーションなど、ファイルやオブジェクトに保存されます。組織にとって、データのライフサイクルを自動的に管理し、 AIなどの最先端テクノロジーを活用してビジネス価値を高めるソリューションを導入することが重要です。

6.幅広いユースケースをサポートする機能をデータアーキテクチャに組み込む:関連する機能(ベクトルライブラリ、データの前処理および後処理パイプラインなど) 、特に非構造化データをサポートする機能を既存のデータアーキテクチャに組み込みます。

7. AIを活用して AI を構築する:生成AIを使用して独自のデータを管理します。生成AI は、データエンジニアリングからデータガバナンス、データ分析まで、データバリューチェーン全体にわたって既存のタスクを高速化し、タスクの処理方法を改善できます。

原題:データが生成型 AI に対応していることを確認する 7 つの方法、著者: Joe McKendrick

<<: マスク氏の AI ツール Grok は ChatGPT のシェルですか?

>>:

データ中心主義と民主化を実践する方法

ブログ

賈陽青氏がフェイスブックを辞任し、アリババ・シリコンバレー研究所の副社長に就任したことが明らかになった。

データが生成型 AI に対応できるようにする 7 つの方法

データ中心主義と民主化を実践する方法

賈陽青氏がフェイスブックを辞任し、アリババ・シリコンバレー研究所の副社長に就任したことが明らかになった。

コーチや監督者になる...人間と機械のコラボレーションにより、AIはあなたをよりよく理解します

カメラ、レーダー、地図は不要、二足歩行ロボットは「自分の感覚」で歩く

世界最大の公開顔データセット | 清華大学と信義科技が共同リリース

機械学習システムの弱点: 保護が必要な 5 つの理由

実際のシナリオにおける知識グラフに基づく大規模モデル幻覚の原因、評価、緩和戦略の探究

推薦する

アリババが世界初のAI中国語フォント「Ali Hanyi Intelligent Bold」を開発

ボストン・ダイナミクスが伝染病と戦うために犬を派遣：頭にはiPad、背中にはトランシーバー、価格性能比は本当に大丈夫なのか？

Google、Amazon、Microsoft – 人工知能の競争をリードするのは誰か？

Google の最新 AI モデル「Gemini」について知っておくべきことすべて

AIの奇妙な使い方：マクドナルドはゴミ箱の監視にAIを活用

「ソースコード解析」仮想DOMアルゴリズムの実装方法

魔法は魔法に勝る、AIデータにはAIソリューションが必要

マイクロソフト、OpenAI、グーグルなどの大手企業が共同でフロンティアモデルフォーラムを設立し、責任ある人工知能の開発を推進している。

GPT-4、ChatGLM2、Llama2、PaLM2がKDD LLM Dayで共同会議を開催しました

Shi Yigong 氏と彼のチームが Science の表紙に登場: AI とクライオ電子顕微鏡が「原子レベル」の NPC 構造を解明、生命科学の画期的進歩