機械学習業界の発展はなぜ「オープンソース」から切り離せないのか

[[187490]]

2016 年末、Google DeepMind は機械学習プラットフォームである DeepMind Lab をオープンソース化しました。グーグルが自社のソフトウェアを他の開発者にオープンソース化する決定は、ホーキング教授のような専門家がこの技術について警告しているにもかかわらず、機械学習機能をさらに開発する取り組みの一環である。こうした取り組みを行っているテクノロジー企業は同社だけではない。Facebookは昨年、ディープラーニングソフトウェアをオープンソース化し、イーロン・マスク氏の非営利団体OpenAIはAIシステムのトレーニングに使用できるオープンソフトウェアプラットフォームであるUniverseをリリースした。では、なぜ Google、OpenAI などがプラットフォームをオープンソース化することを選択したのでしょうか。また、これは機械学習の導入にどのような影響を与えるのでしょうか。

なぜオープンソースの機械学習なのか?

上記の例は、私たちに美しいビジョンを与えてくれます。実際、よく見ると、機械学習は常にオープンソースであり、オープンな研究開発が、機械学習が今日これほど注目を集めている根本的な理由であることに気付くでしょう。

Google は学習プラットフォームを一般に公開することで、AI 研究に対する認知度の高まりを実証しました。実際、これを行うと、Alphabet にとって新しい才能や有能なスタートアップ企業を発見できるなど、多くの利点があります。同時に、開発者が DeepMind Lab にアクセスできるようになることで、機械学習の研究における重要な問題、つまりトレーニング環境の不足を解決するのに役立ちます。 OpenAI は、ゲームやウェブサイトを使用して AI システムをトレーニングする新しい AI 仮想学校を立ち上げました。

機械学習プラットフォームを一般に公開するためには、このような動きが大いに必要です。

オープンソース機械学習プロジェクトの 5 つのメリット

オープンソース機械学習の導入を加速

オープンソース機械学習の最高のフレームワーク

現在、機械学習エンジニアが以下のことを実行できるようにするオープンソースの機械学習フレームワークが多数存在します。

機械学習システムの構築、実装、保守
新しいプロジェクトを生成する
新しく影響力のある機械学習システムの作成

重要なフレームワークには次のようなものがあります。

Apache Singa は、大規模なデータセットで大規模なディープラーニングモデルをトレーニングするための汎用の分散型ディープラーニングプラットフォームです。階層的抽象化に基づく直感的なプログラミングモデルを使用して設計されています。畳み込みニューラルネットワーク (CNN)、制限付きボルツマンマシン (RBM)、再帰型ニューラルネットワーク (RNN) などのエネルギーモデルを含む、さまざまな一般的なディープラーニングモデルをサポートします。ユーザー向けに多くの組み込みレイヤーが提供されています。
Shogun は、最も古く、最も尊敬されている機械学習ライブラリの 1 つです。 Shogun は 1999 年に作成され、C++ で書かれていますが、C++ での使用に限定されません。 SWIG ライブラリのおかげで、Shogun は次のプログラミング言語と環境で使用できます。
- ジャワ
- パイソン
- C#
- ルビー
- R
- ルア
- オクターブ
- マトラボ

Shogun は、分類、回帰、次元削減、クラスタリングなど、さまざまな特徴タイプと学習環境に対して、統合された大規模な学習を実行することを目的としています。豊富で効率的な SVM 実装、マルチカーネル学習、カーネル仮説検定、クリロフ法など、独自の高度なアルゴリズムがいくつか含まれています。

TensorFlow は、データフローグラフを使用した数値計算用のオープンソースソフトウェアライブラリです。 TensorFlow は数値計算にデータフローグラフを使用し、ノードとエッジの有向グラフを通じて数学的計算を記述します。ノードはグラフ内の数学演算を表し、データ入力の開始点 (フィードイン) やデータ出力の終了点 (プッシュアウト)、または永続変数の読み取り/書き込みの終了点 (永続変数) を表すこともできます。図の線は、ノード間で相互接続された多次元データ配列を表しています。これらの「線」は、サイズを動的に調整できる多次元データ配列、つまり「テンソル」を転送できます。
Scikit-Learn は、数学および科学的な作業のための既存の Python パッケージ (NumPy、SciPy、matplotlib) を基盤として構築することで、Python の幅広い機能を活用します。作成されたライブラリは、インタラクティブな「ワークベンチ」アプリケーションで使用したり、他のソフトウェアに埋め込んで再利用したりできます。このスイートは BSD ライセンスの下でリリースされているため、完全にオープンソースであり、再利用可能です。 Scikit-learn には、クラスタリング、分類、回帰などの標準的な機械学習タスク用のツールが多数含まれています。 scikit-learn は大規模な開発者グループと機械学習の専門家によって開発されているため、新しいテクノロジーが迅速に導入されることが期待されます。
MLlib (Spark) は、Apache Spark 用の機械学習ライブラリです。その目標は、実用的な機械学習をよりスケーラブルかつ使いやすくすることです。これは、分類、回帰、クラスタリング、協調フィルタリング、次元削減などの一般的な学習アルゴリズムとユーティリティ、および低レベルの最適化プリミティブと高レベルのパイプライン API で構成されています。 Spark MLlib は、主に分散型のメモリベースの Spark アーキテクチャにより、Spark Core 上の分散型機械学習フレームワークと見なされており、Apache Mahout で使用されるディスクベースの実装よりもほぼ 9 倍高速です。
Amazon Machine Learning は、あらゆるスキルレベルの開発者が機械学習を簡単に実行できるようにするサービスです。 Amazon Machine Learning は、複雑な ML アルゴリズムやテクニックを習得することなく、機械学習 (ML) モデルを作成するプロセスをガイドする視覚的なツールとウィザードを提供します。 Amazon S3、Redshift、または RDS に保存されているデータに接続し、そのデータに対してバイナリ分類、マルチクラス分類、または回帰を実行してモデルを作成できます。
Apache Mahout は、Apache Software Foundation の無料のオープンソースプロジェクトです。目標は、協調フィルタリング、クラスタリング、分類などの複数の分野向けに、無料の分散型またはスケーラブルな機械学習アルゴリズムを開発することです。 Mahout は、さまざまな数学演算用の Java ライブラリと Java コレクションを提供します。 Apache Mahout は、MapReduce パラダイムを使用して Apache Hadoop 上に実装されています。ビッグデータが Hadoop 分散ファイルシステム (HDFS) に保存されている場合、Mahout は、これらの大規模なデータセット内で意味のあるパターンを自動的に見つけることができるデータサイエンスツールを提供し、それによってこれらのビッグデータを「ビッグ情報」に迅速かつ簡単に変換します。

***何を言うか

機械学習は、オープンソースツールの助けを借りて、実際の科学的および技術的な問題を解決することができます。機械学習が実際の科学的および技術的な問題を解決するためには、コミュニティが互いのオープンソースソフトウェアツールを基盤として構築する必要があります。私たちは、次のような複数の役割を果たす機械学習用のオープンソースソフトウェアが緊急に必要であると考えています。