近年では、大規模データ向けのTensorFlow、PyTorch、Caffee、CNTK、Spark、Kubeflow、さまざまな汎用モデル向けのscikit-learn、ML.NET、最近のTripoなど、優れた機械学習ツールが次々と登場しています。 Algorithmia による 2019 年の調査によると、機械学習アルゴリズムを使用する企業の成熟度は全体的に高まっているものの、ほとんどの企業 (50% 以上) では単一の機械学習モデルを展開するのに依然として 8 ~ 90 日かかっています (90 日以上かかる企業は 18% に上ります)。 ほとんどの人は、モデルの規模とそれを複製することの難しさ、経営陣の同意の欠如、利用可能なツールの不足を非難しました。 Dagli の場合、モデル パイプラインは、トレーニングと推論の両方において、有向非巡回グラフ、つまり頂点と辺で構成されるグラフとして定義され、各辺は 1 つの頂点から別の頂点へと方向付けられます。 Dagli の環境は、パイプライン定義、静的型付け、ほぼ普遍的な不変性、およびその他の機能を提供して、ほとんどの潜在的なロジック エラーを防ぎます。 「モデルは統合パイプラインの一部であることが多く、これらのパイプラインの構築、トレーニング、および本番環境への展開は依然として面倒です」と、LinkedIn の自然言語処理研究科学者 Jeff Pasternak 氏はブログ投稿で述べています。トレーニングと推論に対応するために重複した作業や無関係な作業が必要になることが多く、その結果、モデルの将来の進化とメンテナンスを複雑にする脆弱な「接着剤」コードが生成されます。 Dagli は、サーバー、Hadoop、コマンドライン インターフェイス、IDE、その他の一般的な JVM で動作します。ニューラル ネットワーク、ロジスティック回帰、GBDT、FastText、クロス検証、クロス トレーニング、機能選択、データ リーダー、評価、機能変換など、多くのパイプライン コンポーネントもすぐに使用できます。 LinkedIn は Dagli をリリースすることで、機械学習コミュニティに主に 3 つの貢献をしたいと考えています。 1. 使いやすく、バグに強い、JVMベースの機械学習フレームワーク 2. さまざまな統計モデルとトランスフォーマーを統合し、すぐに使用できるライブラリ 3. 従来の「ブラック ボックス」に匹敵する、各コンポーネントの実装を容易にしながら最適化をサポートする、有向非巡回グラフの新しい抽象化としてのシンプルでありながら強力な機械学習パイプライン。 Dagli は、経験豊富なデータ サイエンティスト向けに、既存の JVM テクノロジー スタックを活用して、保守性と拡張性に優れた高性能で本番環境対応の AI モデルへの道を提供します。 Dagli は、経験の浅いソフトウェア エンジニア向けに、一般的なロジック エラーを回避するように設計された JVM 言語とツールで使用できる API を提供します。 Pasternak 氏はまた、「Dagli によって、効率的ですぐに使用できるモデルの作成、変更、展開が容易になり、それらに伴う技術的な問題や長期的なメンテナンスの課題を回避できるようになることを期待しています」と述べています。 Dagli は、高度なマルチコア プロセッサと強力なグラフィック カードを最大限に活用して、単一のマシンで効率的にモデルをトレーニングします。 Dagli の仕組みを詳しく理解するために、まずは勾配ブースティング決定木モデル (XGBoost) のアクティブ リーフと高次元 N グラムのセットを LR モデル分類器の特徴として使用するテキスト分類器から始めましょう。 LinkedIn は Dagli を使用することで、効率的で本番環境対応のモデルの作成、変更、展開が容易になり、それに伴うことが多い技術的な課題や長期にわたるメンテナンスを回避できることを期待しています。 最後に、Dagli の GitHub アドレス リンクを以下に示します。 https://github.com/linkedin/dagli |
<<: 2020 DIGIXグローバルキャンパスAIアルゴリズムエリートコンペティションが成功裏に終了し、キャンパスのイノベーションを刺激
2017年、『エコノミスト』誌は、石油ではなくデータが世界で最も価値のある資源になったと宣言しました...
デジタル ツインは、物理世界とデジタル世界をつなぐため、常に興味深いものです。将来的には、すべてのも...
スマート音声開発者はAIの「ゴールドラッシュ」を先導しています。 7月4日、第2回百度AI開発者会議...
海外メディアの報道によると、市場調査会社ガートナーは最近、投資家が人工知能やデータ分析技術をますます...
10年前、IBMのWatsonがクイズ番組「Jeopardy!」で優勝し、IBMは当時、「Wats...
AI モデルのトレーニングには、大規模で機密性の高いデータセットが使用されることが多く、プライバシ...
今日、カスタマー サービス ロボットは私たちにとって馴染み深い存在です。電話料金、住所、登録、ビジネ...
アクションネットワークによると、7月19日、約8,000人の作家がニューヨーク作家組合宛ての公開書簡...
小売業界の新小売への変革は、業界ではすでに認識されているトレンドであり、真に実装されたインテリジェン...
AI Voice はディープラーニングを使用して、実際の人間の音声のピッチ、トーン、リズムをより正...
純資産が1,050 億ドルあるにもかかわらず、彼は今でも毎日自分でコードを書いています。 ?彼の名前...
最近、NPJ—Computational Materials誌に研究論文が掲載されました。この論文は...