Github のトップ 5 オープンソース機械学習プロジェクト!データ計算が最大80倍高速化!

Github のトップ 5 オープンソース機械学習プロジェクト!データ計算が最大80倍高速化!

挑戦的なオープンソース機械学習プロジェクト 5 つで、2020 年を良いスタートを切りましょう。これらの機械学習プロジェクトは、Python プログラミングや NLP など、幅広い分野をカバーしています。

データサイエンスへの移行方法を模索する人が増えています。大学を卒業したばかりの人、業界に比較的最近参入した人、中堅の専門家、あるいは単に機械学習に興味がある人など、誰もがデータサイエンスの分野に参入したいと考えています。

最先端のフレームワークとライブラリに慣れていただくために、オープンソースの機械学習プロジェクト 5 つ(2020 年 1 月に作成)を厳選しました。 自然言語処理 (NLP) から Python プログラミングまで、あらゆることが学べます。

1. Reformer – PyTorch での効率的な移行

Transformer アーキテクチャは自然言語処理 (NLP) の状況を変えました。 BERT、XLNet、GPT-2 など、多くの NLP フレームワークが生まれました。

しかし、皆さんのほとんどが共感できる問題が 1 つあります。それは、これらのトランス駆動モデルが非常に大きいことです。 これらは最先端の結果をもたらしますが、それを学んで実装したいほとんどの人にとっては高価すぎて手の届かないものです。このプロジェクトの作成者は、独自のモデルを構築するのに役立つ、シンプルでありながら効果的な例とコード全体を提供しています。

2. PandaPy – 最も人気のあるPythonライブラリ

私は先週 PandaPy を発見し、現在のプロジェクトで使用しています。 これは、主流になる可能性を秘めた魅力的な Python ライブラリです。

混合データ型 (int、float、datetime、str など) を使用する機械学習プロジェクトに取り組んでいる場合は、Pandas ではなく PandaPy を使用してみてください。 これらのデータ型の場合、Pandas よりもメモリ消費量が約 3 分の 1 少なくなります。

興味深いと思われる 3 つの主要領域を以下に示します (これらのポイントは PandaPy GitHub リポジトリからそのまま引用したものです)。

1) 小さなデータセット(プラス、マルチサイン、対数など)での単純な計算では、PandaPyはPandasよりも25倍から80倍高速です。

2) 小さなデータセットのテーブル関数 (グループ化、ピボット、ドロップ、結合、フィル、ポピュレートなど) の場合、PandaPy は Pandas よりも 5 倍から 100 倍高速です。

3) PandaPyは、小規模なデータを扱うほとんどのユースケースでDask、Modin Ray、Pandasよりも高速です。

3. Google Earth Engine – 地理空間データを分析するための 300 以上の Jupyter ノートブック

素晴らしい GitHub リポジトリですね! 多くのデータ サイエンティスト志望者からソーシャル プラットフォーム上で連絡があり、地理空間分析を始めるにはどうすればよいかを尋ねられました。 これはペタバイト単位のデータが利用できる非常に興味深い分野です。 必要なのは、それをクリーンアップして分析するための構造化された方法だけです。この素晴らしいリポジトリには、Google Earth Engine データの操作例を含む 300 を超える Jupyter Notebook が集められています。

[[318927]]

これらのノートブックは、コードを実行するために 3 つの Python ライブラリに依存しています。

  • アースエンジン Python API
  • フォリウム
  • ジーハイドロ

GitHub リポジトリには、初心者が始めるのに役立つ Python コードの例が多数含まれています。

4. 自動ビジュアル分析

初心者向けのもう一つの高品質なデータ視覚化のアイデアをご紹介します。 データ探索ステップを自動化するというアイデアは、実質的なフレームワークがないまま、しばらく前から浮上していました。自動ビジュアル分析は、ビジュアル分析を AI 駆動型かつ自動化することを目的としています。

5. Fast Neptune – 機械学習プロジェクトの加速

再現性は、研究と産業の両方において、今日のあらゆる機械学習プロジェクトの重要な側面です。 実行するすべてのテスト、すべての反復、機械学習モデルのすべてのパラメーター、および結果を追跡する必要があります。

Fast Neptune ライブラリを使用すると、機械学習実験を開始するために必要なすべての情報をすばやく記録できます。 言い換えれば、Fast Neptune は、上記の段落を読んだときにおそらく尋ねた再現性の質問に対する答えです。

迅速な実験を行うために Fast Neptune が使用する機能は次のとおりです。

  • コードが実行されているコンピュータに関するメタデータ(オペレーティングシステムと OS バージョンを含む)
  • 実験を実行するためのノートブックの要件
  • エクスペリエンス中に使用されるパラメータ。値を追跡する変数の名前を示します。
  • 実行時にログに記録するコード

最先端のテクノロジーは急速に進歩し続けており、初心者にとってはそれに追いつくのが大変な場合があります。ハングリー精神を持ち続けましょう!

<<:  テクノロジーがコロナウイルスと戦う10の方法

>>:  ファーウェイ、加算のみを使用するニューラルネットワークをオープンソース化:インターン生が開発を主導、効果は従来のCNNと同等

ブログ    
ブログ    

推薦する

ベクトルインデックスの概念を解明する

ChatGPT が一般公開されて以来、LLM (大規模言語モデル)、RAG (検索拡張生成)、ベクタ...

産業用ロボット市場は変化しており、今後は国産品の台頭が期待されます!

皆さんご存知のとおり、2013年以来、我が国は世界最大の産業用ロボットの需要と応用市場となっています...

第 4 次小売革命を経て、WOT の 3 人の専門家が真のスマート小売とは何かを語ります。

[51CTO.comよりオリジナル記事] 6月21日、WOT2019グローバル人工知能技術サミット...

李開復:人工知能に取って代わるのが最も難しい10の仕事

[[246854]]私の意見では、警告、悲観、パニックはすべて「廬山の本当の顔を知らない」根拠のない...

AIと自動化革命に備える10の方法

人工知能と自動化はもはやSFの世界の話ではなく、ビジネスの世界と消費者の世界の両方で非常に現実的かつ...

2024年の産業用ロボットの開発動向

産業用ロボットは、さまざまな産業用タスクを自動的に実行できる一種の機器として、製造、組み立て、梱包、...

...

愚かではないチャットボットを構築したいですか? 6つの実用的なガイドラインをご紹介します

AppleがSiriを発表してから7年、そしてジェフ・ベゾスがスタートレックにインスピレーションを得...

2Dを3Dにするには、たった2枚の写真だけが必要です。このAIは、ろうそくを吹き消すプロセスを想像することができます。第一著者と第二著者はともに中国人です。

廃棄フィルム2枚がパチンと貼り合わされました!見逃した素晴らしい瞬間をすぐに蘇らせることができ、効果...

スパイラルはリアルタイムの機械学習を使用してFacebookのサービスを自動調整します

[51CTO.com クイック翻訳] Facebook を利用する何十億もの人々にとって、私たちのサ...

中国人工知能産業発展連盟メディアプロジェクトグループが設立され、51CTOは連盟の最初の専門メディアの1つになりました。

中国人工知能産業発展連盟メディアプロジェクトグループの設立会議が2018年1月25日に北京で開催され...

2020年のIEEEフェローリストが発表:約30%が中国人で、葉潔平、張同、周博文、熊慧などのAI専門家が選出

本日、IEEE 2020フェローのリストが発表されました。統計によると、280人以上が選出され、その...

中国のAI研究は米国を上回る?専門家:例えば、ディープラーニングに関する論文の発表数

現在、世界の人工知能分野には、業界で「神のような存在」とみなされるトップの専門家が3人いる。そのうち...

...

大型モデル全般において中国と米国の差を縮めるにはどうすればいいでしょうか? 全国人民代表大会でその答えが分かった

「一般的な大きなモデルは国家の運命をめぐる闘争に関連している」... 「人工知能+」が政府活動報告に...