モノのインターネット向けのデータストリーミング、AI、機械学習プラットフォームを構築する方法

モノのインターネット向けのデータストリーミング、AI、機械学習プラットフォームを構築する方法

[[342159]]

今日の IoT のユースケースでは、デバイスが生成した大量のデータを分析したり、機械学習アルゴリズムをリアルタイムで更新したりすることがますます重要になっています。患者のモニタリング、自動運転車、または予測メンテナンス アプリケーションからのデータがリアルタイムで取得、処理、および処理されない場合、患者が危害を受けたり、車両が衝突したり、システムが故障したりする可能性があります。

では、企業はどのようにしてコスト効率よく、大量のデータを大規模に取り込み、対応するための信頼性の高いプラットフォームを構築できるのでしょうか? 企業は、オープンソース ソフトウェア スタック上に構築されたストリーミング プラットフォームとデータ ストレージ システムを使用してこれを実現できます。

今日のオープンソース ソリューションの多くは、何千もの本番環境展開で信頼性があることが実証されています。商業企業の多くの製品では、エンタープライズ レベルのサポートとコンサルティング サービスが利用可能であり、エンタープライズ レベルのソリューション バージョンも提供される場合があります。これらのサポートされたソリューションにより、企業は多額の初期費用をかけずに IoT ソリューションを実装してデジタル変革の目標を達成できると同時に、信頼性が高く将来も対応可能なインフラストラクチャを企業に提供できます。

ここでは、今日の最も成功しているデジタル変革企業の多くで基盤となっているオープンソース ソリューションの一部を紹介します。

ストリーミングデータ

Apache Kafka や Apache Flink などのオープンソース ストリーミング ソリューションは、IoT 展開においてシステムとアプリケーション間でデータを移動するためのリアルタイム データ パイプラインを構築するために使用されます。たとえば、患者モニタリングのユースケースでは、ストリーミング ソリューションは、患者に接続された IoT センサーによって収集されたデータをプラットフォームに配信し、そこでデータを集約、分析、保存します。

Box、LinkedIn、Netflix、Oracle、Twitter は Kafka を使用しています。 Flink は、Alibaba、AWS、Capital One、eBay、Lyft の業務で使用されています。ただし、ストリーミング ソリューションが大規模なリアルタイム ビジネス プロセスをサポートするには、分散型インメモリ コンピューティング プラットフォーム、コンテナー管理ソリューション、分析機能、機械学習機能などの他のテクノロジと統合する必要があります。

インメモリコンピューティング

Apache Ignite は、コモディティ サーバーのクラスターに展開される分散型インメモリ コンピューティング プラットフォームです。既存のアプリケーションとディスクベースのデータベースの間に挿入されるインメモリ データ グリッドとして使用することも、新しいアプリケーション用のスタンドアロンのインメモリ データベースとして使用することもできます。 Ignite はクラスターの使用可能な CPU と RAM をプールし、データと計算を個々のノードに分散します。オンプレミス、パブリック クラウド、プライベート クラウド、ハイブリッド環境に導入できます。 Ignite は ANSI-99 SQL および ACID トランザクションをサポートします。

Ignite は大量のデータをリアルタイムで取り込むことができます。 Ignite はすべてのデータをメモリ内に保持し、MapReduce を使用して分散クラスター全体で超並列処理 (MPP) を実行します。 Ignite は、メモリ内データ キャッシュと MPP を活用することで、ディスクベースのデータベースを使用するアプリケーションと比較して、アプリケーションのパフォーマンスを最大 1,000 倍まで向上させることができます。 Ignite ユーザーは、ネイティブの Kafka 統合を活用して、IoT デバイスからのストリーミング データをインメモリ コンピューティング クラスターに簡単に取り込むこともできます。

前回の記事で説明したように、Ignite を使用すると、複数のオンプレミス データ ストア、クラウドベースのデータ ソース、ストリーミング データ ソースからデータを集約して処理するためのデジタル統合ハブ (DIH) を構築できます。 DIH として、Ignite は、集約されたデータを複数のビジネス アプリケーションでリアルタイムに利用できるようにする高性能なデータ アクセス レイヤーを提供します。 Apache Ignite は、American Airlines、IBM、ING、24 Hour Fitness などの本番環境で使用されています。

クラスター管理

Kubernetes は、Docker またはその他のコンテナ ソリューションでコンテナ化されたアプリケーションの展開と管理を自動化します。コンテナ ソリューションは、アプリケーションと仮想化されたオペレーティング システムを含むソフトウェア パッケージを作成し、アプリケーションの複数の完全に独立したバージョンを同じハードウェア上または仮想化されたハードウェア間 (クラウド サービスなど) で実行できるようにします。 Kubernetes を使用すると、Docker コンテナの管理が容易になり、オンプレミス、パブリック クラウド、プライベート クラウド、ハイブリッド環境など、どこにでも展開できるサーバー クラスター全体の一貫性を確保できます。

この API により、Kubernetes は Apache Ignite とストリーミング プラットフォームのリソースを管理し、IoT インメモリ コンピューティング ベースのクラスターを自動的にスケーリングできるようになります。管理が容易になると、複雑さ、エラー、開発時間が大幅に削減されます。 Kubernetes は、Booking.com、Capital One、Box、IBM、Sling の運用で使用されています。

分析と機械学習

ストリーミング プラットフォーム パズルの最後のピースは、データに基づいて行動する能力です。分析ユースケースの場合、Apache Spark は大量のデータを処理および分析するための分散コンピューティング エンジンです。 Spark は、Apache Ignite インメモリ コンピューティング プラットフォームを活用して、ストリーミング パイプラインを通じて取り込まれた大量のデータを迅速に分析できます。 Spark は Ignite をオンライン データ ストアとして使用することもできるため、Spark ユーザーは既存の DataFrame または RDD にデータを追加し、Spark ジョブを再実行できます。 Spark を使用すると、分散コンピューティング環境で非構造化データに対する簡単なクエリを簡単に記述することもできます。 Spark はすでに Amazon、Credit Karma、eBay、NTT データ、Yahoo! などの業務で使用されています。

機械学習のユースケース向けに、Apache Ignite には、超並列処理に最適化された統合型で完全に分散された機械学習およびディープラーニング ライブラリが含まれています。この統合により、企業は、インメモリ コンピューティング クラスターの各ノード上のインメモリ データに対して機械学習またはディープラーニング アルゴリズムをローカルに実行する継続的な学習アプリケーションを作成できます。アルゴリズムをローカルで実行すると、ペタバイト規模であっても、新しいデータがノードに展開されるたびにモデルを継続的に更新できます。

<<:  機械学習を知っていれば十分でしょうか?次世代のデータ サイエンティストは「フル スタック」へと移行しています。

>>:  450、バックトラッキング アルゴリズムとは何ですか? 一度見れば理解できますが、実際に書いてみると失敗します。

ブログ    

推薦する

自動運転時代の前夜、ACCクルーズテクノロジーが台頭

自動車が発明された日から、自動運転機能への要望は、何世代にもわたるエンジニアたちの焦点となってきまし...

人工知能は核爆弾と同じくらい人類にとって脅威なのでしょうか? AI脅威理論の謎を解く

新たに世界一の富豪となり、テスラのCEO、そしてテクノロジー界の大物となったマスク氏は、ロボットが近...

2018 年のネットワーク イノベーションを推進する 5 つのエンジン

IT 分野は革新を止めたことがなく、ネットワーク分野も例外ではありません。今日は、ネットワーク革新を...

ルカン氏は、今後10年間の研究計画に関する62ページの論文を発表した。AI自律知能

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

崑崙Core2が量産開始:性能が2~3倍向上し、中国の産業知能に強力な「コア」を注入

8月18日、百度とCCTVニュースは共同で「百度ワールド2021」カンファレンスを開催し、AIが何千...

アナリスト:生成AIは過大評価されており、関連業界は2024年に「冷え込む」と予想されている

分析機関CCSインサイトは10日、来年には生成AI分野が現実の試練に直面する可能性があるとの予測を発...

人工知能は統合を加速させており、テレビ業界は若返りを急ぐべきではない

関連データによると、今年上半期、わが国のカラーテレビ市場の累計販売台数は2,000万台未満で、前年同...

AI仮想読書機、ジェスチャー認識+OCR+音声TTS

こんにちは、みんな。最近はAIGCのコンテンツを研究しており、公式アカウントのコンテンツを長い間更新...

「ブラックスワン」の翼の下で:情報戦場におけるAIの光と影

[51CTO.comからのオリジナル記事] 突然の流行に直面して、国民は情報の適時性、透明性、伝達効...

自動運転シミュレーションの雄大な景色!自動運転シミュレーションの分野についてお話ししましょう!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ソフトウェア定義車の基礎 - FOTA および SOTA ソリューション

OTAとは何ですか? OTA(Over-the-Air Technology)は中国語でエアダウンロ...

追跡すべきマルチモーダル LLM が多すぎますか?まずは26のSOTAモデルを見てみましょう

現在、AI分野の焦点は大規模言語モデル(LLM)からマルチモーダルへと移行しており、その結果、LLM...

「ロボット革命」は人類社会の発展にどのような影響を与えるのでしょうか?

世界経済フォーラムが最近発表した報告書によると、2025年までに世界の仕事の半分はロボットによって行...

COVID-19患者のどの症状が悪化するかを予測する新しいアルゴリズム

[[373238]]ミシガン大学の研究者らは、COVID-19患者約400人のデータを分析し、時間の...