機械はどのように学習するのでしょうか? 人間の脳は継続的に経験を蓄積する能力があり、経験を頼りに分析し、処理する能力を持っています。たとえば、市場にスイカを買いに行くと、他の人や自分の経験から、緑色で根が丸まっていて、食感がはっきりしていて、叩いたときに大きな音がするスイカの方がおいしいことがわかります。 私たちにはこのような能力がありますが、機械はどうでしょうか? 機械は指示を受け取って処理するだけではないでしょうか? 人間の脳と同様に、履歴データを機械に取り込むことができます。機械はモデリング アルゴリズムを使用してモデルを生成し、そのモデルに基づいて新しいデータを処理して未知の属性を取得できます。以下は機械学習と人間の脳の誘導体験のカテゴリ図です。 プラットフォームコンセプト Tongcheng 内では、機械学習を適用しているいくつかのチームについて学び、それらの共通の処理手順が次のようになっていることがわかりました。 このプロセスにはいくつかの問題点があります。
そのため、オンラインデータ上で直接モデリング実験を実施し、機械学習の開発コストを節約し、機械学習の応用の敷居を下げるためのプラットフォーム製品群を構築できると考えています。 プラットフォーム構築 設計目標
アルゴリズムライブラリ アルゴリズムライブラリに関しては、Spark を選択しました。R や Python と比較すると、Spark は分散コンピューティング機能を備えており、より効率的です。 ml と mllib はどちらも Spark の機械学習ライブラリです。現在、両方のライブラリは一般的に使用される機械学習機能のニーズを満たすことができます。 ml は主に DataFrame 上で動作します。RDD 上で mllib が提供する基本的な操作と比較すると、ml は DataFrame 上で抽象化のレベルが高く、データと操作の結合度が低くなります。 ml はパイプラインを提供します。これは、Python の sklearn と同様に、パイプラインの形式で多くの操作 (アルゴリズム/特徴抽出/特徴変換) を連結することができ、StringToIndexer、IndexerToString、VectorAssembler などのタスクの組み合わせに非常に便利です。 コンポーネントベースの設計 アーキテクチャ設計の観点から見ると、アルゴリズムユニット、機能エンジニアリングユニット、評価ユニット、その他のツールユニットであっても、すべてコンポーネントの形で設計できると考えています。共通のインターフェース動作とさまざまな実装を利用することで、疎結合と容易な拡張性を実現できます。 上の図は全体の設計クラス図の一部ですが、実際にはさらに抽象化のレベルと共通コードが作られています。コアクラス BaseTask を見てみましょう。
run メソッドの実装はテンプレートのセットであり、手順は次のとおりです。 各コンポーネントは、独自のコアロジック実行メソッドを実装するだけで済みます。 プラットフォームの反復 v1.0 (プラットフォーム コア アーキテクチャ) 上記の設計目標に基づいて、機械学習プラットフォームの最初のバージョンのアーキテクチャは次のようになります。 ユーザーはインターフェースを介してコンポーネントをドラッグアンドドロップしてモデリングプロセスを構築し、コンポーネントの構成と依存関係をDBに保存します。
プロセスと評価ビュー
最初のバージョンでは、あまり多くのアルゴリズムコンポーネントを提供せず、線形回帰とロジスティック回帰のみを提供していました。しかし、コンポーネント化の考え方に基づいて、後の段階で迅速に反復できると確信しています。 アルゴリズムの数が少なくなるだけでなく、ビジネスからのフィードバックと独自の考えが組み合わされます。機械学習プラットフォームにはさらに多くの機能があると考えています。
v2.0 (拡張コンポーネント、オフライン コンピューティング、定期的なスケジュール) 第 2 バージョンでは、まず元の設計フレームワークに基づいて、関連する実用的なコンポーネントを拡張および改善しました。 同時に、第 2 バージョンでは、細部に渡っていくつかの改善を加えました。
オフラインコンピューティング 予測結果を CSV 形式で HDFS にドロップできる「フィールド ランディング」ツール コンポーネントを提供します。
定期的なスケジュールとマクロ変数のサポート 当社の別の製品であるビッグデータ開発キット (BDK) は、定期的なスケジュール設定の機能をカバーしています。機械学習プラットフォームのモデリング実験は、サブタスクの形でこれに組み込むことができます。マクロ変数 (「/%Y/%m/%d」などの特定の規則的な構文置換は現在の日付を表すことができます) と組み合わせることで、ユーザーは当社のプラットフォームでモデリング実験をホストし、定期的なオフライン コンピューティングの目的を達成できます。 建築 要約すると、当社のプラットフォームの第 2 バージョンは、コンポーネントの強化と機能の改善、オフライン コンピューティングの結果の実装、定期的なオフライン コンピューティングのための BDK の組み合わせに重点を置いています。具体的なアーキテクチャは次のように進化しました。 v3.0 (リアルタイム予測とクロス検証) リアルタイム予測 当社のプラットフォームでは、モデリング実験を通じてモデルをトレーニングできます。モデルは、PMML などの標準を通じてエクスポートできます。同様に、モデル エクスポート機能を使用して、モデルを parquet 形式で HDFS の対応するディレクトリに保存できます。ユーザーはこれらのモデル標準を入手し、一部の機能を独自に実装できます。しかし、リアルタイム予測機能も当社のプラットフォーム上で抽象化できると考えています。そのため、3.0 アーキテクチャでは、リアルタイム予測サービスを提供する tcscoring システムを開発しました。 tcscoring システムの依存媒体はモデルの PMML ファイルです。ユーザーは、トレーニング済みのモデルに対応する PMML ファイルを機械学習プラットフォームに直接展開するか、他のパスを通じて PMML ファイルを生成することができます。デプロイが成功すると、予測用の REST インターフェイスがビジネスでの使用のために返されます。 もちろん、PMML の展開を BDK と組み合わせて定期的なスケジュールを設定することもできます。モデルの定期的なトレーニングと組み合わせることで、トレーニング + 予測プロセス全体を機械学習プラットフォーム + BDK に委託してホスティングすることができます。 クロス検証 機械学習プラットフォームの 3 番目のバージョンでは、クロス検証にも重点を置いています。以前のバージョンでは、ユーザーは一度に 1 セットのハイパーパラメータしか実験できませんでした。クロス検証を使用すると、ユーザーは 1 つの実験で複数のハイパーパラメータ セットを設定し、トレーニング セットをトレーニング用と検証用に比例して分割して、最適なモデルを取得できます。 プラットフォームの展望 パーソナライゼーション 3 回の反復を経て、機械学習プラットフォームは多くの一般的な事柄を抽象化しましたが、収益化がうまくいかなかったパーソナライズされたものがまだいくつか残っていました。システムをパーソナライズする最良の方法は、ユーザーに独自のコードを書かせることだというのが私たちの考えです。カスタム プラグインのインターフェイスをオープンにし、動的コンパイル技術を使用してこれらのパーソナライズされたコンポーネントをロードし、モデリング プロセスに統合します。 他のアルゴリズムパッケージを統合する 現在、広く使用されている xgboost など、spark ml 以外のアルゴリズム パッケージの統合も試みています。一方、現在のアルゴリズムは依然として従来の機械学習アルゴリズムに基づいています。ディープラーニングの場合、TensorFlow に組み込まれているか、Deeplearning4j などのサードパーティのディープラーニング ライブラリを使用しているかなどです。次に、Spark ml以外のアルゴリズムパッケージを統合してみます。 |
>>: ビッグデータと人工知能の分野で初心者から専門家になるためのガイド
テレビ番組「ザ・ブレイン」が巻き起こした「人間対機械」、そして自動運転車、顔認識、アルファ囲碁など一...
Microsoft は、大規模言語モデルのパフォーマンスを向上させる新しいツール、Jigsaw を発...
AI は本質的にはソフトウェアの追求ですが、ハードウェア エンジニアに多くの機会を生み出し、多くのス...
学生時代、私は Huya の面接を受けたことがあります。今でもはっきりと覚えている面接の質問がありま...
海外メディアの報道によると、元アップルのデザイナー、イムラン・チャウドリ氏とベサニー・ボンジョルノ氏...
対話システムの構築は比較的専門的で複雑なプロセスであり、通常は 3 つの主要な段階に分かれています。...
強化学習 (RL) とディープラーニングの組み合わせは、一連の印象的な結果をもたらし、(ディープ) ...
ChatGPT に続いて、OpenAI のライブ ブロードキャストでは、視覚入力はまだ広く利用可能...
情報筋によると、検索エンジンの百度は先週、検索アルゴリズムを調整し、微博のコンテンツのインデックスを...
[[439421]] [51CTO.com クイック翻訳]近年、人工知能(AI)は私たちの日常生活...
[51CTO.com クイック翻訳] 機械学習の分野を見ると、ソフトウェアエンジニアリングの原理を...
機械学習モデルは全部でいくつありますか?分かりません。誰も数えたことがありません。すべての変種を含め...