マイクロソフトは水曜日、開発者が機械学習の開発と展開を簡素化できるように、シンプルで多言語対応の超並列機械学習ライブラリ SynapseML (旧称 MMLSpark) をオープンソースとして発表しました。 機械学習パイプラインの構築は、最も経験豊富な開発者にとっても難しい場合があります。まず、異なるエコシステムのツールを組み合わせるには大量のコードが必要であり、多くのフレームワークはサーバー クラスターを考慮して設計されていません。データ サイエンス チームも、より多くの機械学習モデルを使用するよう求めるプレッシャーに直面しています。 Microsoft は、SynapseML を使用すると、開発者はテキスト分析、翻訳、音声処理などのクロスドメインの課題を解決するスケーラブルなインテリジェント システムを構築できると述べています。 SynapseML を使用すると、開発者は 45 種類を超える最先端の機械学習サービスをシステムやデータベースに直接組み込むことができます。 最新リリースでは、分散フォーム認識、会話の文字起こし、翻訳のサポートが追加され、さまざまなドキュメントを解析し、複数の対話者の音声をリアルタイムで文字起こしし、100 を超えるさまざまな言語を翻訳できる、すぐに使用できるアルゴリズムが搭載されています。 ▲オープンソース機械学習ライブラリSynapseMLのインターフェース オープンソースのリンクは次のとおりです: https://github.com/microsoft/SynapseML 1. 5年間の開発を経て、SynapseMLはAI実装の問題点に直接対処します。SynapseML は、Apache Spark、SparkML、および産業用ビッグ データ処理の分野におけるその他の「インターネット セレブ」コンピューティング エンジンを含む、Microsoft の強力な Spark (コンピューティング エンジン) エコシステム上に構築されています。 SynapseML は、Spark 機械学習ビルドフローとその他のディープラーニング ツールのシームレスな統合を含む、多くのディープラーニングおよびデータ サイエンス ツールを Spark エコシステムに追加します。これらのツールは、さまざまなデータ ソースに対して強力で拡張性の高い予測および分析モデルを提供します。 SynapseML ライブラリは Azure Synapse Analytics ツールで使用でき、アルゴリズムの動作要件に応じて、または開発者が事前に構成したリソースに基づいて、AI モデルのデータを収集および処理できます。 「過去 5 年間、私たちは運用ワークロード向けの SynapseML ライブラリの改善と安定化に取り組んできました。Azure Synapse Analytics を使用している開発者は、SynapseML がエンタープライズ サポート付きのサービスで一般提供されるようになったことを喜んでいただけるでしょう」と、Microsoft のソフトウェア エンジニアである Mark Hamilton 氏はブログ投稿で述べています。 AI技術の活用と分析能力は徐々に高まっていますが、データサイエンスプロジェクトの約87%はまだ産業化されていません。米国のAIアルゴリズム取引サービスプラットフォームであるAlgorithmiaの最近の調査によると、ビジネス価値を実現するためのモデル導入に1~3か月を要する企業は22%、3か月以上を要する企業は18%となっている。 SynapseML は、Microsoft が開発した既存の機械学習フレームワークとアルゴリズムを 1 つの API にパッケージ化し、データ プロジェクトの失敗という課題を解決します。この API は、Python、R、Scala、Java で使用できます。 SynapseML を使用すると、開発者は、検索エンジンの作成など、複数のフレームワークを必要とするユースケースを組み合わせて、サイズ変更可能なコンピュータ クラスターでモデルをトレーニングおよび評価できます。 2. 教師なし学習機能は研究のギャップを埋めることができるMicrosoft はプロジェクトの Web サイトで次のように説明しています。「SynapseML のツールを使用すると、複数の機械学習エコシステムにまたがる強力で拡張性の高いモデルを作成できます。SynapseML は、Spark エコシステムに新しいネットワーク機能も提供します。HTTP on Spark プロジェクトを使用すると、ユーザーは任意の Web サービスを SparkML モデルに埋め込み、Spark クラスターを使用して大規模なジョブを実行できます。」 ▲エンジンライブラリ SynapseML アーキテクチャ SynapseML は、Microsoft と Meta (旧 Facebook) が共同で開発したフレームワークである Open Neural Network Exchange (ONNX) とも統合されており、実行時にさまざまな機械学習エコシステムのモデルを使用できるようになります。この統合により、開発者はわずか数行のコードでさまざまな従来の機械学習モデルを実行できるようになります。 この API は「教師なし学習 AI」を特徴としており、トレーニング データにラベルを付けずに、人種や性別などの機密データセット機能が過剰に解釈されているか認識できないかなど、データセットの不均衡を理解する機能や、モデルが特定の予測を行った理由とトレーニング データセットを改善する方法を説明するモデルの説明可能性などが含まれます。 SynapseML は、パーソナライズされた推奨事項のための Vowpal Wabbit フレームワークと、強化学習用の新しいアルゴリズム モデルであるコンテキスト バンディットを導入し、開発者が AI モデルをトレーニングできるようにします。 ラベル付けされたデータセットを必要とせず、教師なし学習はドメイン知識の特定のギャップを埋めるのに役立ちます。たとえば、Facebook が最近リリースした教師なしモデル SEER は、10 億枚の画像でトレーニングでき、さまざまなコンピューター ビジョン ベンチマークで最先端の結果を達成しています。 ただし、教師なし学習では、システムの予測における偏りや欠陥の可能性が排除されるわけではありません。一部の専門家は、これらのバイアスを排除するには、教師なしモデルの専門的なトレーニングと、バイアスを排除するための追加の小規模データセットの使用が必要になる可能性があると考えています。 「私たちの目標は、開発者が分散実装の詳細について心配する必要がなくなり、開発者のコードを変更することなく、さまざまなデータベース、クラスター、プログラミング言語に展開できるようにすることです」とハミルトン氏は付け加えた。 結論:オープンソースエンジンライブラリはアルゴリズムの実装を促進する科学技術の急速な発展に伴い、AIによる技術革命も急速に発展しています。機械学習などの分野におけるAI研究は、性能と効率性が絶えず向上していますが、そのアルゴリズムの実装は依然として困難に直面しており、大規模に活用するには至っていません。 Microsoft は、機械学習アルゴリズムを継続的に改善し、既存の機械学習フレームワークを Microsoft が開発したアルゴリズムと統合し、AI のデータ処理および分析機能を向上させ、AI テクノロジの開発をさらに促進するために、SynapseML ライブラリをオープンソース化しました。 |
<<: 2 つの小型モデルで大型モデルに勝つことができます。北京大学卒業生、Google 中国版第一著者「モデルコレクション」、CNN や Transformer にも応用可能!
>>: AI向けに構築されたコンピューターに最適なアクセサリと外部コンポーネント
最近、Kuaishou-ICIP 2019モバイルビデオ復元コンテストの登録が正式に開始されました。...
AIの助けを借りれば、月に10万元、年に100万元稼ぐことができます。想像できますか?信じないでく...
人工知能に関する議論は現在、自動運転車、チャットボット、デジタルツイン、ロボット工学、そしてビッグデ...
機械学習などの計算集約型テクノロジーの開発には、大きな二酸化炭素排出量が伴い、気候変動の一因となりま...
OpenAIは、共同設立者兼主任科学者のイリヤ・スツケバー氏とアラインメント責任者のヤン・ライケ氏が...
[[327632]] 【51CTO.com クイック翻訳】この質問に対する単純で明確な答えはありま...
「自動化」や「人工知能(AI)」などの「技術革新」がビジネスや仕事の本質を変えていることは間違いあり...
この記事では、ディープラーニングにおけるモデルを合理化する技術、量子化と蒸留について詳しく説明します...
国内の科学技術イノベーション主体はいずれも「中核技術を自主的に掌握し、外国の独占を打ち破る」という目...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...