DataOps プラットフォームの真の価値は、ビジネス ユーザーとアプリケーションがさまざまなデータ ソースからの生データと集約データにアクセスし、データに基づく洞察をタイムリーに生成できる場合にのみ実現されます。機械学習により、アナリストやデータ サイエンティストは履歴データを活用し、TensorFlow (TF) などのテクノロジーをリアルタイムで使用して、オフライン データに基づくより優れたビジネス上の意思決定を行うことができます。 この記事では、StreamSets Data Collector 3.5.0 および StreamSets Data Collector Edge でリリースされた TensorFlow Evaluator* を使用して、TensorFlow モデルで予測と分類を行う方法を学習します。 詳細に入る前に、いくつかの基本的な概念を見てみましょう。 機械学習 アーサー・サミュエルはこれを「明示的にプログラムされなくても学習する能力をコンピューターに与える研究分野」と説明しました。機械学習の分野の発展により、コンピューターは人間よりも優れた予測を行うことができ、あらゆる問題を解決できるようになったようです。まず、機械学習がどのような問題を解決するのかを確認しましょう。 一般的に、機械学習は次の 2 つのカテゴリに分けられます。 教師あり学習 「教師あり学習とは、入力と出力のペアの例に基づいて入力を出力にマッピングする関数を学習する機械学習タスクです。」— Wikipedia 履歴データに特定の結果のラベルが付けられている場合に結果を予測できる正確なモデルを構築することが含まれます。 教師あり学習で解決される一般的なビジネス上の問題:
教師なし学習 教師なし学習により、出力がどのようになるかについての知識がほとんどまたは全くなくても問題に取り組むことができます。データの以前のラベルが利用できない場合にモデルを作成する必要があります。このクラスの問題では、データ内の変数間の関係に基づいてデータをクラスタリングすることによって構造が導出されます。 教師なし学習の一般的な 2 つの方法は、K 平均法クラスタリングと DBSCAN です。 注: Data Collector および Data Collector Edge の TensorFlow Evaluator は現在、教師あり学習モデルのみをサポートしています。 ニューラルネットワークとディープラーニング ニューラル ネットワークは、人間の脳の構造にヒントを得た計算モデルを学習して使用できる機械学習アルゴリズムの一種です。決定木、ロジスティック回帰などの他の機械学習アルゴリズムと比較すると、ニューラル ネットワークはより高い精度を備えています。 Andrew Ng 氏は、従来の人工ニューラル ネットワークのコンテキストにおけるディープラーニングについて説明します。 「ディープラーニング、自己学習、教師なし特徴学習」と題したスピーチの中で、彼はディープラーニングの考え方を次のように説明しました。 「脳の構造の模倣を利用して、私たちは次のことを実現したいと考えています。 - 学習アルゴリズムを改善し、使いやすくします。 - 機械学習と人工知能の分野で革命的な進歩を遂げる。 これが真の人工知能への道だと信じています。 ” 一般的なニューラル ネットワークとディープラーニングのアプリケーションには次のものがあります。
テンソルフロー TensorFlow は、Google Brain チームによって開発された、ディープ ニューラル ネットワーク向けに設計されたオープン ソースの機械学習フレームワークです。 TensorFlow は、CPU、GPU、TPU を含む Windows および Mac オペレーティング システムでのスケーラブルで移植可能なトレーニングをサポートします。これは、GitHub 上で最も人気があり、活発な機械学習プロジェクトです。 データコレクターにおける TensorFlow TensorFlow Evaluator の導入により、Web サービスとして提供および公開されている機械学習モデルに対して HTTP または REST API 呼び出しを行うことなく、制御された環境でデータや機能を取り込み、予測や分類を生成するパイプラインを作成できるようになりました。たとえば、データ コレクター パイプラインでは、データがさまざまな段階を通過して最終的な宛先に保存され、さらに処理や意思決定が行われる前に、不正なトランザクションを検出したり、テキストに対して自然言語処理をリアルタイムで実行したりできるようになりました。 さらに、Data Collector Edge を使用すると、サポートされているプラットフォームで実行されている Raspberry Pi やその他のデバイスで TensorFlow 対応の機械学習パイプラインを実行できます。例えば、高リスク地域での洪水などの自然災害の発生確率を検知し、人々の財産への被害を防ぐことなどです。 乳がんの分類 乳がんの腫瘍を悪性か良性かに分類する例を考えてみましょう。乳がんは、scikit-learn の一部として利用できる古典的なデータセットです。このデータセットを使用して Python でシンプルな TensorFlow モデルをトレーニングおよびエクスポートする方法については、GitHub のコードを確認してください。ご覧のとおり、モデルの作成とトレーニングは最小限に抑えられ、隠しレイヤーが数個あるだけで非常にシンプルになっています。注目すべき最も重要な点は、TensorFlow SavedModelBuilder* を使用してモデルをエクスポートおよび保存する方法です。 *注: Data Collector または Data Collector Edge で TensorFlow モデルを使用するには、まず、サポートされている開発言語 (Python など) とインタラクティブ環境 (Jupiter Notebook など) で TensorFlow の SavedModelBuilder を使用してモデルをエクスポートして保存する必要があります。 TensorFlow の SavedModelBuilder を使用してモデルをトレーニングし、エクスポートしたら、そのモデルが Data Collector または Data Collector Edge からアクセスできる場所に保存されている限り、予測や分類のためにデータフロー パイプラインでそのモデルを使用するのは簡単です。 パイプラインの概要 詳細に入る前に、パイプラインは次のようになります。 パイプラインの詳細
*TensorFlow エバリュエーターの設定 注: TensorFlow Evaluator がモデル出力を生成すると、この例で使用されるパイプライン ステージはオプションとなり、ユース ケースの必要に応じて他のプロセッサやターゲットと交換できます。 パイプライン実行 プレビュー パイプラインでは、乳がんデータ レコードの入力は、TensorFlow モデルの提供を含め、上記のデータフロー パイプライン プロセスを通過します。 Kafka プロデューサーに送信される最終出力レコード データ (上記参照) には、モデルが分類に使用する乳がんの特徴、ユーザー定義フィールド TF_Model_Classification のモデル出力値 0 または 1、および Expression Evaluator によって作成された Condition フィールドの対応するがん状態 (良性または悪性) が含まれます。 要約する この記事では、Data Collector 3.5.0 で新しくリリースされた TensorFlow Evaluator を使用する方法について説明します。一般に、この推定ツールを使用すると、独自のコードを記述することなく、予測と分類結果を生成するための事前トレーニング済みの TensorFlow モデルを提供できます。 |
>>: 機械学習アルゴリズムの長所と短所の比較と選択(要約)
水力発電ダムの壁は川の流れを制限し、川をよどんだ水たまりに変えてしまいます。これらの貯水池が古くなる...
大規模言語モデル (LLM) には通常、数十億のパラメータがあり、数兆のトークンのデータを使用してト...
[[387421]]接頭辞表現(ポーランド語表記)プレフィックス式はポーランド式とも呼ばれます。プ...
最近南京で開催された2020年世界知能製造会議において、中国工程院の研究者らは、人類の発展の観点から...
人工知能 (AI) システムは人間に似た方法でやり取りするため、一部の人は不安に思うかもしれませんが...
[[408210]]今では「顔認証で出勤、顔認証で支払い、顔認証でドアを開ける」といったハイテクノ...
面接でアルゴリズムのみをテストする質問は、一般的に多くのプログラマーの友人から嫌われます。ここでは、...
導入いくつかの一般的なオプティマイザーを紹介し、その長所と短所を分析し、オプティマイザーを選択するた...
夏が進むにつれて気温もどんどん高くなっていきます。最近クウェートの気温は50℃~70℃に達したと報じ...
トム・ミッチェル教授は、スクワレルAIラーニングからの最高AI責任者としての招待を受け入れたことを正...
都市から農村まで、わが国の宅配便や電子商取引企業がドローン物流と配達に注力したことで、国産ドローンの...