機械学習業界の発展はなぜ「オープンソース」から切り離せないのか

機械学習業界の発展はなぜ「オープンソース」から切り離せないのか

[[187490]]

2016 年末、Google DeepMind は機械学習プラットフォームである DeepMind Lab をオープンソース化しました。グーグルが自社のソフトウェアを他の開発者にオープンソース化する決定は、ホーキング教授のような専門家がこの技術について警告しているにもかかわらず、機械学習機能をさらに開発する取り組みの一環である。こうした取り組みを行っているテクノロジー企業は同社だけではない。Facebookは昨年、ディープラーニングソフトウェアをオープンソース化し、イーロン・マスク氏の非営利団体OpenAIはAIシステムのトレーニングに使用できるオープンソフトウェアプラットフォームであるUniverseをリリースした。では、なぜ Google、OpenAI などがプラットフォームをオープンソース化することを選択したのでしょうか。また、これは機械学習の導入にどのような影響を与えるのでしょうか。

なぜオープンソースの機械学習なのか?

上記の例は、私たちに美しいビジョンを与えてくれます。実際、よく見ると、機械学習は常にオープンソースであり、オープンな研究開発が、機械学習が今日これほど注目を集めている根本的な理由であることに気付くでしょう。

Google は学習プラットフォームを一般に公開することで、AI 研究に対する認知度の高まりを実証しました。実際、これを行うと、Alphabet にとって新しい才能や有能なスタートアップ企業を発見できるなど、多くの利点があります。同時に、開発者が DeepMind Lab にアクセスできるようになることで、機械学習の研究における重要な問題、つまりトレーニング環境の不足を解決するのに役立ちます。 OpenAI は、ゲームやウェブサイトを使用して AI システムをトレーニングする新しい AI 仮想学校を立ち上げました。

機械学習プラットフォームを一般に公開するためには、このような動きが大いに必要です。

オープンソース機械学習プロジェクトの 5 つのメリット

オープンソース機械学習の導入を加速

オープンソース機械学習の最高のフレームワーク

現在、機械学習エンジニアが以下のことを実行できるようにするオープンソースの機械学習フレームワークが多数存在します。

  • 機械学習システムの構築、実装、保守
  • 新しいプロジェクトを生成する
  • 新しく影響力のある機械学習システムの作成

重要なフレームワークには次のようなものがあります。

  • Apache Singa は、大規模なデータセットで大規模なディープラーニング モデルをトレーニングするための汎用の分散型ディープラーニング プラットフォームです。階層的抽象化に基づく直感的なプログラミング モデルを使用して設計されています。畳み込みニューラル ネットワーク (CNN)、制限付きボルツマン マシン (RBM)、再帰型ニューラル ネットワーク (RNN) などのエネルギー モデルを含む、さまざまな一般的なディープラーニング モデルをサポートします。ユーザー向けに多くの組み込みレイヤーが提供されています。
  • Shogun は、最も古く、最も尊敬されている機械学習ライブラリの 1 つです。 Shogun は 1999 年に作成され、C++ で書かれていますが、C++ での使用に限定されません。 SWIG ライブラリのおかげで、Shogun は次のプログラミング言語と環境で使用できます。
    • ジャワ
    • パイソン
    • C#
    • ルビー
    • R
    • ルア
    • オクターブ
    • マトラボ

Shogun は、分類、回帰、次元削減、クラスタリングなど、さまざまな特徴タイプと学習環境に対して、統合された大規模な学習を実行することを目的としています。豊富で効率的な SVM 実装、マルチカーネル学習、カーネル仮説検定、クリロフ法など、独自の高度なアルゴリズムがいくつか含まれています。

  • TensorFlow は、データフロー グラフを使用した数値計算用のオープン ソース ソフトウェア ライブラリです。 TensorFlow は数値計算にデータフローグラフを使用し、ノードとエッジの有向グラフを通じて数学的計算を記述します。ノードはグラフ内の数学演算を表し、データ入力の開始点 (フィードイン) やデータ出力の終了点 (プッシュアウト)、または永続変数の読み取り/書き込みの終了点 (永続変数) を表すこともできます。図の線は、ノード間で相互接続された多次元データ配列を表しています。これらの「線」は、サイズを動的に調整できる多次元データ配列、つまり「テンソル」を転送できます。
  • Scikit-Learn は、数学および科学的な作業のための既存の Python パッケージ (NumPy、SciPy、matplotlib) を基盤として構築することで、Python の幅広い機能を活用します。作成されたライブラリは、インタラクティブな「ワークベンチ」アプリケーションで使用したり、他のソフトウェアに埋め込んで再利用したりできます。このスイートは BSD ライセンスの下でリリースされているため、完全にオープン ソースであり、再利用可能です。 Scikit-learn には、クラスタリング、分類、回帰などの標準的な機械学習タスク用のツールが多数含まれています。 scikit-learn は大規模な開発者グループと機械学習の専門家によって開発されているため、新しいテクノロジーが迅速に導入されることが期待されます。
  • MLlib (Spark) は、Apache Spark 用の機械学習ライブラリです。その目標は、実用的な機械学習をよりスケーラブルかつ使いやすくすることです。これは、分類、回帰、クラスタリング、協調フィルタリング、次元削減などの一般的な学習アルゴリズムとユーティリティ、および低レベルの最適化プリミティブと高レベルのパイプライン API で構成されています。 Spark MLlib は、主に分散型のメモリベースの Spark アーキテクチャにより、Spark Core 上の分散型機械学習フレームワークと見なされており、Apache Mahout で使用されるディスクベースの実装よりもほぼ 9 倍高速です。
  • Amazon Machine Learning は、あらゆるスキルレベルの開発者が機械学習を簡単に実行できるようにするサービスです。 Amazon Machine Learning は、複雑な ML アルゴリズムやテクニックを習得することなく、機械学習 (ML) モデルを作成するプロセスをガイドする視覚的なツールとウィザードを提供します。 Amazon S3、Redshift、または RDS に保存されているデータに接続し、そのデータに対してバイナリ分類、マルチクラス分類、または回帰を実行してモデルを作成できます。
  • Apache Mahout は、Apache Software Foundation の無料のオープン ソース プロジェクトです。目標は、協調フィルタリング、クラスタリング、分類などの複数の分野向けに、無料の分散型またはスケーラブルな機械学習アルゴリズムを開発することです。 Mahout は、さまざまな数学演算用の Java ライブラリと Java コレクションを提供します。 Apache Mahout は、MapReduce パラダイムを使用して Apache Hadoop 上に実装されています。ビッグ データが Hadoop 分散ファイル システム (HDFS) に保存されている場合、Mahout は、これらの大規模なデータ セット内で意味のあるパターンを自動的に見つけることができるデータ サイエンス ツールを提供し、それによってこれらのビッグ データを「ビッグ情報」に迅速かつ簡単に変換します。

***何を言うか

機械学習は、オープンソース ツールの助けを借りて、実際の科学的および技術的な問題を解決することができます。機械学習が実際の科学的および技術的な問題を解決するためには、コミュニティが互いのオープンソース ソフトウェア ツールを基盤として構築する必要があります。私たちは、次のような複数の役割を果たす機械学習用のオープンソース ソフトウェアが緊急に必要であると考えています。

  • 結果を再現するより良い方法
  • 質の高いソフトウェア実装に対する学術的評価を提供するメカニズム
  • 他者(必ずしもテクノロジーの巨人ではない)の力を借りて研究プロセスを加速する

<<:  ドラッグアンドドロップ機械学習の愛と憎しみ

>>:  Baidu の最新の IDL 成果: 自然言語から始めて、AI エージェントに人間のように学習することを教える

ブログ    
ブログ    

推薦する

AIが高度な数学の核心を突破、微分方程式と不定積分を1秒以内に解き、その性能はMatlabをはるかに上回る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

中国電子科技大学の博士号取得者は、2年でネイチャーとサイエンスに論文を発表して有名になった。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

米国の学区は校内暴力を防ぐためにAIを活用し、脅迫的な言葉を検知して管理者に通知しているが、事前診断率はわずか25%に過ぎない。

アメリカでまた銃撃事件が発生。 5月24日、テキサス州ユバルデのロブ小学校で銃撃事件が発生し、少なく...

MITとGoogle BrainはAIを使って「現代のロゼッタストーン」として知られる失われた古代の文書を解読する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

人工知能技術は成熟しており、AI音声業界は幅広い発展の見通しを迎えている

新しいインフラの波の下で、業界のデジタル変革は本格化しています。この過程で、AI音声は近年最も成熟し...

Scikit-learn をご存知ですか?これらの機能をご存知ですか?

[[229302]]ビッグデータ概要編纂者: 王暁奇、大潔瓊、アイリーンScikit-learn ...

...

大規模モデルの観点から見た因果推論

1. 因果推論と大規模モデル近年、因果推論は研究のホットスポットとなり、多くのシナリオに適用されてき...

...

CMU PhD により、インテリジェント エージェントが現実世界で競争できるようになります。 GPT-4が勝利したが成功率はわずか10%

私たちは長い間、人工知能の進歩によって推進される自律的なインテリジェントエージェントを作成するという...

キングス・カレッジ・ロンドンとグラクソ・スミスクラインが人工知能技術に基づくがん研究で協力

海外メディアの報道によると、9月30日、キングス・カレッジ・ロンドンと世界的な製薬会社グラクソ・スミ...

...