Github で最も注目されている機械学習イノベーション プロジェクト 7 つ

Github で最も注目されている機械学習イノベーション プロジェクト 7 つ

最新の機械学習開発と最先端のコードを持つプラットフォームはどれでしょうか? そう、GitHub です! この記事では、最近リリースされた GitHub 機械学習プロジェクトを 7 つ紹介します。これらのプロジェクトは、自然言語処理 (NLP)、コンピューター ビジョン、ビッグ データなど、機械学習の幅広い分野をカバーしています。

Github のトップ機械学習プロジェクト

1. PyTorch-Transformers(NLP)

ポータル: https://github.com/huggingface/pytorch-transformers

自然言語処理 (NLP) の力は驚くべきものです。 NLP は、テキストの処理方法をほぼ言葉では言い表せないほど変えました。

最も先進的な NLP ライブラリの中で、PyTorch-Transformers は最新のものとして登場しましたが、さまざまな NLP タスクにおける既存のベンチマークをすべて破りました。最も魅力的な点は、PyTorch の実装、事前トレーニング済みのモデルの重み、その他の重要な要素をカバーしており、ユーザーがすぐに使い始めることができることです。

最先端のモデルを実行するには、膨大な計算能力が必要です。 PyTorch-Transformers はこの問題を大幅に解決し、最先端の NLP モデルを構築するのに役立ちます。

ここでは、PyTorch-Transformers に関する詳細な記事をいくつか紹介します。これらの記事は、ユーザーがこのモデル (および NLP の事前トレーニング済みモデルの概念) を理解するのに役立ちます。

  • PyTorch-Transformers: 最先端の NLP モデルの素晴らしいライブラリ (Python で作成)
  • NLP を始めるのに最適な 8 つの事前トレーニング済みモデル: https://www.analyticsvidhya.com/blog/2019/03/pretrained-models-get-started-nlp/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python
  • PyTorch — シンプルでありながら強力なディープラーニング ライブラリ: https://www.analyticsvidhya.com/blog/2018/02/pytorch-tutorial/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

2. ニューラル分類器 (NLP)

ポータル: https://github.com/Tencent/NeuralNLP-NeuralClassifier

現実の世界では、テキスト データのマルチラベル分類は大きな課題です。私たちが初めて NLP の問題に直面したとき、通常は単一ラベルのタスクを扱っていましたが、現実の世界ではそれはそれほど単純ではありません。

マルチラベル分類問題では、インスタンス/レコードには複数のラベルがあり、各インスタンスのラベルの数は固定されていません。

NeuralClassifier を使用すると、多層、マルチラベルの分類タスクにニューラル モデルを迅速に実装できます。私のお気に入りは、FastText、RCNN、Transformer など、さまざまな有名なテキスト エンコーダーを提供する NeuralClassifier です。

NeuralClassifier を使用して、次の分類タスクを実行できます。

  • 2層テキスト分類
  • 多層テキスト分類
  • マルチラベルテキスト分類
  • 多層(マルチラベル)テキスト分類

マルチラベル分類とは何か、そしてそれを Python でどのように実行するかを正確に説明している 2 つの優れた記事を以下に示します。

  • NLP を使用して映画のジャンルを予測する — マルチラベル分類の優れた入門: https://www.analyticsvidhya.com/blog/2019/04/predicting-movie-genres-nlp-multi-label-classification/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python
  • Python で最初のマルチラベル画像分類モデルを構築する: https://www.analyticsvidhya.com/blog/2019/04/build-first-multi-label-image-classification-model-python/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

3. TDEngine(ビッグデータ)

ポータル: https://github.com/taosdata/TDengine

TDEngine データベースには、1 か月足らずで 10,000 個近くの星が蓄積されました。読み進めれば、その理由がすぐにわかるでしょう。

TDEngine は、以下の用途向けのオープンソース ビッグデータ プラットフォームです。

  • モノのインターネット (IoT)
  • 車両のインターネット
  • 産業用 IoT
  • ITインフラ等

本質的に、TDEngine はデータ エンジニアリング関連のタスクの完全なセットを提供し、それらはすべて非常に高速に完了できます (クエリ処理速度が 10 倍になり、コンピューティングの使用率は 1/5 に削減されます)。

現時点で注意すべき点は、TDEngine は Linux での実行のみをサポートしていることです。 TDEngine データベースには、完全なドキュメントと、コードを含む入門ガイドが含まれています。

データ エンジニア向けの包括的なリソース ガイドを読むことをお勧めします。

  • データ エンジニアになりたいですか? 始めるためのリソースの包括的なリストは次のとおりです: https://www.analyticsvidhya.com/blog/2018/11/data-engineer-comprehensive-list-resources-get-started/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

4. ビデオオブジェクトの削除(コンピュータビジョン)

ポータル: https://github.com/zllrunning/video-object-removal

画像データを扱ったことがありますか? コンピューター ビジョンは、画像を操作および処理するために使用される高度なテクノロジーです。コンピューター ビジョンの専門家になりたい場合、画像内のオブジェクト検出は一般的に必須であると考えられています。

ビデオについてはどうでしょうか? 複数のビデオ内のオブジェクトの境界ボックスを描画するのは簡単そうに思えるかもしれませんが、実際にはそれよりもはるかに難しく、オブジェクトの動的な性質によりタスクはさらに複雑になります。

ビデオ オブジェクトの削除は本当に便利です。ビデオ内のオブジェクトの周囲に境界ボックスを描いて削除するだけです。とても簡単です! 例を挙げてみましょう:

コンピューター ビジョンの世界にまだ慣れていない場合は、すぐに始めるのに役立つ 2 つの記事を以下に示します。

  • 基本的なオブジェクト検出アルゴリズムの包括的な紹介: https://www.analyticsvidhya.com/blog/2018/10/a-step-by-step-introduction-to-the-basic-object-detection-algorithms-part-1/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python
  • ディープラーニング 2.0 を使用したコンピューター ビジョンの習得: https://courses.analyticsvidhya.com/courses/computer-vision-using-deep-learning-version2/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

5. Python オートコンプリート (プログラミング)

ポータル: https://github.com/vpj/python_autocomplete

Python オートコンプリートを気に入っていただけると思います。データ サイエンティストの仕事は、さまざまなアルゴリズムを実験することだけです (少なくともほとんどの人はそうしています)。Python Autocomplete は、単純な LSTM モデルを使用して Python コードを自動的に記述できます。

下の画像では、灰色の部分は LSTM モデルによって自動的に入力されたコードです (結果は画像の下部にあります)。

開発者は次のように説明しています。

まず、Python コード内のコメント、文字列、空白行をクリアしてから、トレーニングと予測を実行します。モデルのトレーニングでは、Python コードがトークン化されていることを前提としており、これはバイト エンコーディングを使用してバイトを予測するよりも効率的であると思われます。

単調な Python コードを何行も書いて時間を費やした (無駄にした) ことがあるなら、このモデルがまさにあなたが探しているものかもしれません。しかし、その開発はまだ非常に初期段階にあり、運用においてはいくつかの問題が避けられません。

LSTM が何であるかを知りたい場合は、この記事の紹介を読んでください。

  • ディープラーニングの基礎: 長短期記憶 (LSTM) 入門: https://www.analyticsvidhya.com/blog/2017/12/fundamentals-of-deep-learning-introduction-to-lstm/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

6. tfpyth – TensorFlow から PyTorch へ、そして TensorFlow へ (プログラミング)

ポータル: https://github.com/BlackHC/tfpyth

TensorFlow と PyTorch はどちらも膨大なユーザーベースを持っていますが、後者の使用率は信じられないほど高く、今後 1 ~ 2 年で前者を上回る可能性があります。ただし、注意してください。Tensorflow の立場は非常に堅固であるため、これは Tensorflow を非難するものではありません。

したがって、TensorFlow で一連のコードを記述し、次に PyTorch で別の一連のコードを記述し、これら 2 つを組み合わせてモデルをトレーニングしたい場合は、tfpyth フレームワークが適切な選択肢になります。 Tfpyth の最大の利点は、ユーザーが以前に記述したコードを書き直す必要がないことです。

このプロジェクトは、tfpyth の使用方法について構造化された例を提供しており、これは間違いなく TensorFlow と PyTorch の間の議論を再検討するものです。

tfpyth のインストールは簡単です:

  1. pip tfpyth をインストールします

TensorFlow と PyTorch の仕組みを詳しく説明した 2 つの記事をご紹介します。

  • Python で TensorFlow を使用してニューラル ネットワークを実装する方法の紹介
  • PyTorch — シンプルでありながら強力なディープラーニング ライブラリ: https://www.analyticsvidhya.com/blog/2018/02/pytorch-tutorial/?utm_source=blog&utm_medium=7-innovative-machine-learning-github-projects-in-python

7. メディカルネット

MedicalNet には、論文「Med3D: 転移学習による 3D 医療画像分析」(https://arxiv.org/abs/1904.00625) のアイデアを実践する PyTorch プロジェクトが含まれています。この機械学習プロジェクトでは、さまざまなモダリティ、対象臓器、病状の医療データセットを組み合わせて、より大きなデータセットを構築します。

ご存知のとおり、ディープラーニング モデルには (通常) 大量のトレーニング データが必要ですが、TenCent がリリースした MedicalNet は非常に優れたオープン ソース プロジェクトです。ぜひ皆さんも試してみてください。

MedicalNet の開発者は、23 のデータセットに基づいて 4 つの事前トレーニング済みモデルをリリースしました。必要であれば、転移学習の視覚的な紹介をご覧ください。

  • 転移学習とディープラーニングにおける事前学習済みモデルの微調整の技術

<<:  AIの大規模導入における大きなギャップを埋めます!アリババ、テンセント、百度などが共同でインターネットサービスAIベンチマークを開始

>>:  業界大手がIoTとAIを成功裏に導入するための3つのステップ

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

OpenAIはAIモデルのトレーニング用データセットを生成するパートナーを募集している

IT Homeは11月10日、OpenAIがAIモデルのトレーニング用にパブリック/プライベートデー...

純粋な乾物 | ディープラーニング研究の概要

[[195952]] 1. ディープラーニングディープラーニングといえば、一度でも触れたことがある人...

...

さまざまな機械学習アルゴリズムの選択の考え方を説明する記事

序文これは Zhihu に関する質問です: k 近傍法、ベイズ法、決定木、SVM、ロジスティック回帰...

...

マスク氏:AIの開発を止める人はいない。この呼びかけは、みんなに注意を払うよう思い出させるだけだ

6月18日のニュース: 今年3月、イーロン・マスク氏は人工知能技術の開発一時停止を呼びかけ、テクノロ...

2つのセッションは「AI顔認識」と生体認証データの法制化と規制の緊急の必要性に焦点を当てています。

[[385416]]現在、両セッションは活発に行われており、全国のさまざまな分野の代表者が独自の提...

あなたの「読書」は他の人に読まれている。清華大学の研究者はWeChatの「Look」からこれらのパターンを発見した。

WeChatの「Take a Look」アプリの最もアクティブなユーザーは実は私たちの両親であり、...

人工知能は何ができるのでしょうか?今日はそれを総合的に見ていきましょう。

電子廃棄物[[277263]]環境の持続可能性のために AI と IoT を活用すると、現在の環境保...

...

ディープラーニングで最もよく使われる学習アルゴリズム「Adam最適化アルゴリズム」をご存知ですか?

ディープラーニングでは、トレーニングに多くの時間とコンピューティング リソースが必要になることが多く...

馬化騰と李延紅の対談:基礎技術は巨大産業の変革の基盤

11月8日、烏鎮で開催された世界インターネット大会で、馬化騰氏と李ロビン氏が首脳対談を行った。2人の...

Julia vs Python: 2019 年に機械学習でナンバー 1 になるプログラミング言語はどれでしょうか?

[[252207]] [51CTO.com クイック翻訳] Juliaは2018年に登場し、現在最...

二重あごをなくすコツがある。浙江大学の2000年代生まれの大学生が、ACM SIGGRAPHで発表した新しい美容アルゴリズムを開発

ソーシャルネットワーク、ライブ放送、ショートビデオの普及に伴い、他人により良い印象を与えるために、顔...

全国の大学の人工知能学科の一覧がここにあります!今年の大学入試の受験を検討していますか?

学生たちの運命を決める2018年度大学入試が始まりました。多くの受験生が理想的な結果を得られることを...