LinkedIn が Dagli をオープンソース化し、Java 機械学習ライブラリをリリース

LinkedIn が Dagli をオープンソース化し、Java 機械学習ライブラリをリリース

近年では、大規模データ向けのTensorFlow、PyTorch、Caffee、CNTK、Spark、Kubeflow、さまざまな汎用モデル向けのscikit-learn、ML.NET、最近のTripoなど、優れた機械学習ツールが次々と登場しています。

Algorithmia による 2019 年の調査によると、機械学習アルゴリズムを使用する企業の成熟度は全体的に高まっているものの、ほとんどの企業 (50% 以上) では単一の機械学習モデルを展開するのに依然として 8 ~ 90 日かかっています (90 日以上かかる企業は 18% に上ります)。

ほとんどの人は、モデルの規模とそれを複製することの難しさ、経営陣の同意の欠如、利用可能なツールの不足を非難しました。

Dagli の場合、モデル パイプラインは、トレーニングと推論の両方において、有向非巡回グラフ、つまり頂点と辺で構成されるグラフとして定義され、各辺は 1 つの頂点から別の頂点へと方向付けられます。

Dagli の環境は、パイプライン定義、静的型付け、ほぼ普遍的な不変性、およびその他の機能を提供して、ほとんどの潜在的なロジック エラーを防ぎます。

「モデルは統合パイプラインの一部であることが多く、これらのパイプラインの構築、トレーニング、および本番環境への展開は依然として面倒です」と、LinkedIn の自然言語処理研究科学者 Jeff Pasternak 氏はブログ投稿で述べています。トレーニングと推論に対応するために重複した作業や無関係な作業が必要になることが多く、その結果、モデルの将来の進化とメンテナンスを複雑にする脆弱な「接着剤」コードが生成されます。

Dagli は、サーバー、Hadoop、コマンドライン インターフェイス、IDE、その他の一般的な JVM で動作します。ニューラル ネットワーク、ロジスティック回帰、GBDT、FastText、クロス検証、クロス トレーニング、機能選択、データ リーダー、評価、機能変換など、多くのパイプライン コンポーネントもすぐに使用できます。

LinkedIn は Dagli をリリースすることで、機械学習コミュニティに主に 3 つの貢献をしたいと考えています。

1. 使いやすく、バグに強い、JVMベースの機械学習フレームワーク

2. さまざまな統計モデルとトランスフォーマーを統合し、すぐに使用できるライブラリ

3. 従来の「ブラック ボックス」に匹敵する、各コンポーネントの実装を容易にしながら最適化をサポートする、有向非巡回グラフの新しい抽象化としてのシンプルでありながら強力な機械学習パイプライン。

Dagli は、経験豊富なデータ サイエンティスト向けに、既存の JVM テクノロジー スタックを活用して、保守性と拡張性に優れた高性能で本番環境対応の AI モデルへの道を提供します。

Dagli は、経験の浅いソフトウェア エンジニア向けに、一般的なロジック エラーを回避するように設計された JVM 言語とツールで使用できる API を提供します。

Pasternak 氏はまた、「Dagli によって、効率的ですぐに使用できるモデルの作成、変更、展開が容易になり、それらに伴う技術的な問題や長期的なメンテナンスの課題を回避できるようになることを期待しています」と述べています。

Dagli は、高度なマルチコア プロセッサと強力なグラフィック カードを最大限に活用して、単一のマシンで効率的にモデルをトレーニングします。

Dagli の仕組みを詳しく理解するために、まずは勾配ブースティング決定木モデル (XGBoost) のアクティブ リーフと高次元 N グラムのセットを LR モデル分類器の特徴として使用するテキスト分類器から始めましょう。

LinkedIn は Dagli を使用することで、効率的で本番環境対応のモデルの作成、変更、展開が容易になり、それに伴うことが多い技術的な課題や長期にわたるメンテナンスを回避できることを期待しています。

最後に、Dagli の GitHub アドレス リンクを以下に示します。

https://github.com/linkedin/dagli

<<:  2020 DIGIXグローバルキャンパスAIアルゴリズムエリートコンペティションが成功裏に終了し、キャンパスのイノベーションを刺激

>>:  AIの最高峰:自然言語処理

ブログ    
ブログ    
ブログ    

推薦する

新しい調査によると、アメリカ人の48%は自動運転車に乗りたくないと考えている。

自動運転の開発は本当に難しいです。この困難は技術的な難しさだけでなく、人々の直感的な不信感によっても...

2021 年の AI イノベーション トレンド トップ 10

人工知能は、人々の日常の仕事や生活を変えるテクノロジーとイノベーションに関して、最もホットなトレンド...

2021年の中国サービスロボット産業の発展状況のレビュー

人口の高齢化が加速し、教育に対する需要が引き続き強いことから、中国のサービスロボットは大きな市場潜在...

人工知能倫理ガバナンスは早急に実践段階へ移行する必要がある

今日の社会では、デジタル工業化と産業のデジタル化により、デジタル世界と物理世界の深い融合と発展が促進...

...

JetBrains が 2023 年開発者レポートをリリースしました。 35年来の危機は存在するのか?最高のプログラミング言語はどれですか?

開発者の間で大きな影響力を持つ JetBrains が、毎年恒例の「開発者エコシステムの現状」レポー...

倪光南学士がRAG技術、AIエージェント、AI倫理的課題について語る

中国工程院の院士である倪光南氏は、第2回北京人工知能産業革新発展会議で人工知能の発展に関する見解と経...

行動バイオメトリクスと機械学習が顧客関係を改善する方法

行動バイオメトリクスは、トラブルのない認証を実現し、世界中の消費者の体験に革命をもたらす画期的なテク...

古い写真の修復、太陽系外惑星の発見... 素晴らしい機械学習プロジェクト 8 つをご紹介します

[[337579]]カジャル・ヤダブマシンハートが編集編集者: シャオ・ジョウ、ドゥ・ウェイ人工知能...

ルールベースのAIと機械学習の主な違いは、さまざまな業界の企業が検討し、実装している点です。

さまざまな業界の企業が、ビッグデータからロボット工学まで、ビジネスプロセスの自動化、顧客体験の向上、...

MetaはオープンソースのAIツールAudioCraftをリリースしました。これにより、ユーザーはテキストプロンプトを通じて音楽やオーディオを作成できます。

8月3日(東部時間8月2日)、Metaは、ユーザーがテキストプロンプトを通じて音楽やオーディオを作...

インターフェース開発にアルゴリズムは必要ないなんて誰が言ったのでしょうか?

[[146153]]アルゴリズムとは何ですか?簡単に言えば、問題を解決するための手順がアルゴリズム...

ビジネスマーケティングにおける人工知能の6つの応用

[[378540]] [51CTO.com クイック翻訳] 今日、人工知能(AI)に基づくソリューシ...

ロボットが任務中、「無人配達」の裏にある苦闘と暗闘

[[230225]]本レポートでは、無人配送業界の変化、その台頭理由、中国と米国の違いについて詳細に...

モデルもオンライン授業を受講できますか? !サービス指向の蒸留トレーニング プログラムを 1 つの記事で理解する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...