Cloudera Greater Chinaのテクニカルディレクター、Liu Lifang氏：より正確なAIにはより正確なデータが必要

アプリケーションの可観測性と AI の信頼、リスク、セキュリティ管理は、ガートナーが 2023 年に発表した戦略的テクノロジートレンドのトップ 10 に含まれています。「データによって今日不可能なことが明日可能になる」と信じている Cloudera は、この 2 つのトレンドにおいて独自の優位性を持っているようです。

最近、Cloudera Greater China のテクニカルディレクターである Liu Lifang が、Cloudera の新しい既製の大規模言語モデル (LLM) ブループリントと、CDP 展開を監視および最適化するための新しいサービスである Cloudera Observability を 51CTO やその他のメディアで紹介しました。

CML: AIを信頼するには、まずデータを信頼することから始まる

「これは Cloudera にとって非常に良い機会です。」

AI時代について語る劉立芳氏は、Clouderaプラットフォームで管理されるデータは2500万TBを超えており、これはハイパースケールサービスプロバイダーのデータ量に匹敵すると述べた。以前、Cloudera Greater Chinaの副社長であるWang Gang氏は次のように述べました。「生成AIと大規模言語モデルの有効性は、受け取るトレーニングデータに依存し、適切なコンテキストが必要です。これらのモデルとAIが成功するには、信頼される必要がありますが、AIを信頼することは、データを信頼することから始まります。」

今年初めから、多くのパートナーや顧客が、会話型ロボットや機械学習、ディープラーニングなどのテクノロジーを自社のシステムに組み込みたいと考え、Cloudera に支援を求めてきました。

ChatGPT は非常に人気があり、誰もがそれを使用していますが、なぜ企業はパブリッククラウド上のモデルを直接使用するのではなく、パートナーと話し合う必要があるのでしょうか。 Liu Lifang 氏は、企業は適切なコンテキストで独自のデータに基づいたインタラクティブなエクスペリエンスを構築し、外部のサービスとデータを共有しない必要があると説明しました。 Cloudera プラットフォームでは、すべての顧客にとって最も重要で価値のあるデータは常に顧客の手元にあります。これが、Cloudera が顧客の AI 構築に深く関与できる重要な理由の 1 つです。

企業にとって、データの関連性と正確性も重要です。会話型ロボットが起こすエラーは、仕事や生産性に大きな影響を与えます。「ChatGPTには、知識ベースにトレーニングの答えがない場合、答えをでっち上げるという戦略があります。この現象はAI幻覚と呼ばれています。」劉立芳氏は、今日のAIは映画で見るほど魔法のようなものではないと述べた。AIがより正確な答えを出すためには、データの品質を確保する必要がある。

Cloudera は過去 2 年間、データウィービングに基づいて顧客がデータガバナンスと制御を実現できるよう支援する機能に重点を置いてきました。しかし、将来的には、Cloudera は AI プラットフォームへと変革します。

劉立芳氏は、ClouderaのAIプラットフォームCML（CDP機械学習）は3つの重要な部分で構成されていると紹介した。1つはCDP基本データ、つまり顧客トレーニングデータの基本データであり、顧客の将来の分析システムにデータサポートを提供する。2つ目はデータの処理、抽出、変換である。Clouderaのデータ処理プロセスはもともとビッグデータ処理に使用されており、AIでもデータ処理が必要である。3つ目は大規模な言語モデルを埋め込み、そのモデルに基づいてAIアプリケーションを構築および展開することです。

「Cloudera AI プラットフォームは、実際のビッグデータモデルに基づいて、コンプライアンスに準拠した方法で信頼できる結果を生成する機能を提供すると思います。」

可観測性: ハイブリッドクラウドのコストの最適化

ハイブリッドクラウドやマルチクラウドを選択する企業が増えるにつれ、さまざまな部門やコストセンターにわたるインフラストラクチャとサービスの支出を完全に把握して管理することがますます困難になっています。

Liu Lifang 氏は、ハイブリッドクラウドの導入管理における課題は主に 3 つの側面にあると紹介しました。1 つ目は、プラットフォームの制御性と安定性です。コンテナ、スケジューラ、サービスなどで構成される複雑なシステムは、運用および保守担当者に高い知識を要求します。2 つ目は、リソースの管理と制御です。リソースの消費と効率の可視性が限られているため、無駄や過剰支出につながります。3 つ目は、サポートの強さと経験です。サポート担当者は頻繁に行き来する必要があり、トラブルシューティングプロセスも面倒です。

Cloudera Observability はこれらの問題を解決します。 Cloudera Observability は今年 6 月、パブリックまたはプライベートクラウド環境で Cloudera Data Platform (CDP) を使用しているすべての顧客に公開すると発表しました。ハイブリッドデータソリューションにおけるCloudera の経験を基に構築されたこのソリューションにより、顧客はCDP の展開を監視、理解、最適化できるようになります。顧客は、カスタマイズ可能な自動化と事前構築されたアクションを通じて、アラートを発し、問題を積極的に回避し、ワークロードを最適化することもできます。

ワークロードのチューニングに重点を置いた Cloudera の以前の製品である Workload Management と比較すると、Cloudera Observability はハイブリッドクラウド環境においてより包括的な機能を備えています。 Liu Lifang 氏は、Observability によって、財務ガバナンス、プロアクティブなシステム監視、サービス健全性監視、ワークロード最適化、セルフサービス分析、問題解決の迅速化などの機能が実現されると紹介しました。

Cloudera Observability は、CDP の全機能をコスト効率よく利用できるようにすることで、エンタープライズユーザーエクスペリエンスを向上させます。これは、さまざまなハイブリッドクラウドやマルチクラウド環境で大規模な言語モデルやその他の AI プロジェクトに基礎データを提供するためにデータ管理を改善している企業にとって、ますます重要になっています。

さらに、Liu Lifang 氏は Cloudera Observability の利点について言及し、既存の対象顧客のプラットフォーム上で Cloudera が実施したデータ分析のデモンストレーションも行いました。 Observability を導入した後、クラスターの使用率が 30% 以上増加し、インフラストラクチャへの投資収益率が向上しました。SLA と SLO のコンプライアンスが 43% 向上し、収益が直接増加しました。RCA とトラブルシューティングの速度が 50 倍向上し、運用コストが削減されました。

現在、Cloudera Observability はパブリッククラウド上で SaaS バージョンのみをリリースしており、展開をサポートするにはインターネット接続も必要です。しかし、劉立芳氏は、一部の業界の厳しい規制とデータの機密性を考慮して、Clouderaはまもなくローカル展開バージョンをリリースすることを明らかにした。

<<: ロボット工学と自動化の台頭：スマートホームセキュリティの変革

>>: 「1 枚の画像から 3D メッシュを再構築」により、遅延がなくなり、30 分から 45 秒にスピードアップしました。浙江大学、カリフォルニア大学などが共同でOne-2-3-45をリリース：オンラインデモを試用可能