機械学習業界の発展はなぜ「オープンソース」から切り離せないのか

機械学習業界の発展はなぜ「オープンソース」から切り離せないのか

[[187490]]

2016 年末、Google DeepMind は機械学習プラットフォームである DeepMind Lab をオープンソース化しました。グーグルが自社のソフトウェアを他の開発者にオープンソース化する決定は、ホーキング教授のような専門家がこの技術について警告しているにもかかわらず、機械学習機能をさらに開発する取り組みの一環である。こうした取り組みを行っているテクノロジー企業は同社だけではない。Facebookは昨年、ディープラーニングソフトウェアをオープンソース化し、イーロン・マスク氏の非営利団体OpenAIはAIシステムのトレーニングに使用できるオープンソフトウェアプラットフォームであるUniverseをリリースした。では、なぜ Google、OpenAI などがプラットフォームをオープンソース化することを選択したのでしょうか。また、これは機械学習の導入にどのような影響を与えるのでしょうか。

なぜオープンソースの機械学習なのか?

上記の例は、私たちに美しいビジョンを与えてくれます。実際、よく見ると、機械学習は常にオープンソースであり、オープンな研究開発が、機械学習が今日これほど注目を集めている根本的な理由であることに気付くでしょう。

Google は学習プラットフォームを一般に公開することで、AI 研究に対する認知度の高まりを実証しました。実際、これを行うと、Alphabet にとって新しい才能や有能なスタートアップ企業を発見できるなど、多くの利点があります。同時に、開発者が DeepMind Lab にアクセスできるようになることで、機械学習の研究における重要な問題、つまりトレーニング環境の不足を解決するのに役立ちます。 OpenAI は、ゲームやウェブサイトを使用して AI システムをトレーニングする新しい AI 仮想学校を立ち上げました。

機械学習プラットフォームを一般に公開するためには、このような動きが大いに必要です。

オープンソース機械学習プロジェクトの 5 つのメリット

オープンソース機械学習の導入を加速

オープンソース機械学習の最高のフレームワーク

現在、機械学習エンジニアが以下のことを実行できるようにするオープンソースの機械学習フレームワークが多数存在します。

  • 機械学習システムの構築、実装、保守
  • 新しいプロジェクトを生成する
  • 新しく影響力のある機械学習システムの作成

重要なフレームワークには次のようなものがあります。

  • Apache Singa は、大規模なデータセットで大規模なディープラーニング モデルをトレーニングするための汎用の分散型ディープラーニング プラットフォームです。階層的抽象化に基づく直感的なプログラミング モデルを使用して設計されています。畳み込みニューラル ネットワーク (CNN)、制限付きボルツマン マシン (RBM)、再帰型ニューラル ネットワーク (RNN) などのエネルギー モデルを含む、さまざまな一般的なディープラーニング モデルをサポートします。ユーザー向けに多くの組み込みレイヤーが提供されています。
  • Shogun は、最も古く、最も尊敬されている機械学習ライブラリの 1 つです。 Shogun は 1999 年に作成され、C++ で書かれていますが、C++ での使用に限定されません。 SWIG ライブラリのおかげで、Shogun は次のプログラミング言語と環境で使用できます。
    • ジャワ
    • パイソン
    • C#
    • ルビー
    • R
    • ルア
    • オクターブ
    • マトラボ

Shogun は、分類、回帰、次元削減、クラスタリングなど、さまざまな特徴タイプと学習環境に対して、統合された大規模な学習を実行することを目的としています。豊富で効率的な SVM 実装、マルチカーネル学習、カーネル仮説検定、クリロフ法など、独自の高度なアルゴリズムがいくつか含まれています。

  • TensorFlow は、データフロー グラフを使用した数値計算用のオープン ソース ソフトウェア ライブラリです。 TensorFlow は数値計算にデータフローグラフを使用し、ノードとエッジの有向グラフを通じて数学的計算を記述します。ノードはグラフ内の数学演算を表し、データ入力の開始点 (フィードイン) やデータ出力の終了点 (プッシュアウト)、または永続変数の読み取り/書き込みの終了点 (永続変数) を表すこともできます。図の線は、ノード間で相互接続された多次元データ配列を表しています。これらの「線」は、サイズを動的に調整できる多次元データ配列、つまり「テンソル」を転送できます。
  • Scikit-Learn は、数学および科学的な作業のための既存の Python パッケージ (NumPy、SciPy、matplotlib) を基盤として構築することで、Python の幅広い機能を活用します。作成されたライブラリは、インタラクティブな「ワークベンチ」アプリケーションで使用したり、他のソフトウェアに埋め込んで再利用したりできます。このスイートは BSD ライセンスの下でリリースされているため、完全にオープン ソースであり、再利用可能です。 Scikit-learn には、クラスタリング、分類、回帰などの標準的な機械学習タスク用のツールが多数含まれています。 scikit-learn は大規模な開発者グループと機械学習の専門家によって開発されているため、新しいテクノロジーが迅速に導入されることが期待されます。
  • MLlib (Spark) は、Apache Spark 用の機械学習ライブラリです。その目標は、実用的な機械学習をよりスケーラブルかつ使いやすくすることです。これは、分類、回帰、クラスタリング、協調フィルタリング、次元削減などの一般的な学習アルゴリズムとユーティリティ、および低レベルの最適化プリミティブと高レベルのパイプライン API で構成されています。 Spark MLlib は、主に分散型のメモリベースの Spark アーキテクチャにより、Spark Core 上の分散型機械学習フレームワークと見なされており、Apache Mahout で使用されるディスクベースの実装よりもほぼ 9 倍高速です。
  • Amazon Machine Learning は、あらゆるスキルレベルの開発者が機械学習を簡単に実行できるようにするサービスです。 Amazon Machine Learning は、複雑な ML アルゴリズムやテクニックを習得することなく、機械学習 (ML) モデルを作成するプロセスをガイドする視覚的なツールとウィザードを提供します。 Amazon S3、Redshift、または RDS に保存されているデータに接続し、そのデータに対してバイナリ分類、マルチクラス分類、または回帰を実行してモデルを作成できます。
  • Apache Mahout は、Apache Software Foundation の無料のオープン ソース プロジェクトです。目標は、協調フィルタリング、クラスタリング、分類などの複数の分野向けに、無料の分散型またはスケーラブルな機械学習アルゴリズムを開発することです。 Mahout は、さまざまな数学演算用の Java ライブラリと Java コレクションを提供します。 Apache Mahout は、MapReduce パラダイムを使用して Apache Hadoop 上に実装されています。ビッグ データが Hadoop 分散ファイル システム (HDFS) に保存されている場合、Mahout は、これらの大規模なデータ セット内で意味のあるパターンを自動的に見つけることができるデータ サイエンス ツールを提供し、それによってこれらのビッグ データを「ビッグ情報」に迅速かつ簡単に変換します。

***何を言うか

機械学習は、オープンソース ツールの助けを借りて、実際の科学的および技術的な問題を解決することができます。機械学習が実際の科学的および技術的な問題を解決するためには、コミュニティが互いのオープンソース ソフトウェア ツールを基盤として構築する必要があります。私たちは、次のような複数の役割を果たす機械学習用のオープンソース ソフトウェアが緊急に必要であると考えています。

  • 結果を再現するより良い方法
  • 質の高いソフトウェア実装に対する学術的評価を提供するメカニズム
  • 他者(必ずしもテクノロジーの巨人ではない)の力を借りて研究プロセスを加速する

<<:  ドラッグアンドドロップ機械学習の愛と憎しみ

>>:  Baidu の最新の IDL 成果: 自然言語から始めて、AI エージェントに人間のように学習することを教える

推薦する

...

人工知能が裁判官の判断に取って代われば、司法権は誤った方向に導かれる可能性がある

近年、社会構造の転換と国民の権利意識の強化に伴い、中国の裁判所が受理する事件の規模は毎年二桁増加し、...

...

2023年振り返り、大型模型産業の急速な発展の365日

4兆度(345MeV)は、2010年に米国ニューヨークのブルックヘブン国立研究所が相対論的重イオン衝...

2024年に決して起こらない5つのテクノロジートレンド

翻訳者 | ジン・ヤンレビュー | Chonglou世界中のアナリストが、今後のテクノロジートレンド...

キャッシュ除去アルゴリズムLRU実装原理についてお話しましょう

[[315530]] 01. はじめにデータのクエリ速度を向上させるために、キャッシュがよく使用され...

OpenAI、開発者向けGPTチャットボットAPIのメジャーアップデートを発表、価格を値下げ

OpenAI は本日、大規模言語モデル API (GPT-4 および gpt-3.5-turbo を...

...

...

馬化騰氏は「人工知能の4つの主要な発展傾向が今後10年間で世界を変えるだろう」と述べた。

今後10年間で世界を変える人工知能の4つの主要な発展トレンドの分析61歳のビル・ゲイツ氏は大学卒業生...

...

人工知能が人間に取って代わり、多くの人が失業することになるのでしょうか?

人工知能とは何ですか? AI と呼ばれる人工知能は、コンピュータ サイエンスの一分野です。このテクノ...

...

マスク氏、XデータをAIの訓練に利用していると認める「マイクロソフトは使えないが、自分なら使える」

マスク氏はついに我慢できなくなり、X のデータを AI に入力し始めました。過去 2 日間で、X が...

GPTストアはまだオープンしていないが、模倣者がすでにこの脂身の多い肉に狙いを定めている。

著者: トーマス・クラバーン編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat...