レビュー: 8 月に Github で注目すべき 7 つのデータサイエンスプロジェクト

[[279134]]

機械学習の旅で次の大きな一歩を踏み出す準備はできていますか? 実験的なデータセット、一般的なデータサイエンスライブラリ、フレームワークを使用することは良いスタートですが、競争相手から目立つためには、さらに一歩進んで差別化する必要があります。

これを行う最善の方法は、データサイエンスの分野における最新の技術を使用してプロジェクトを完了することです。コンピュータービジョンの専門家になりたいですか? それなら、最先端のオブジェクト検出アルゴリズムを学習しましょう。自然言語処理 (NLP) で変化を起こしたい場合は、Transformer モデルのさまざまな機能とブランチを学習してください。

重要なのは、常に最新のデータサイエンス技術に取り組む準備と意欲を持つことです。データサイエンスは最も急速に成長している分野の 1 つであり、データサイエンティストとして私たちは学び続け、成長し続ける必要があります。

この記事では、2019 年 8 月に GitHub で作成された 7 つのデータサイエンスプロジェクトについて説明します。私が選んだプロジェクトの範囲は非常に広く、機械学習から強化学習まで多くの分野をカバーしています。

この記事では、これらのデータサイエンスプロジェクトを 3 つの主要なカテゴリに分類します。

機械学習プロジェクト
ディープラーニングプロジェクト
プログラミングプロジェクトによる最高のデータサイエンスプロジェクト

機械学習プロジェクト

pyforest - 1 行のコードですべての Python データサイエンスライブラリをインポートします

この Python ライブラリは本当に気に入っています。タイトルにあるように、一般的なデータサイエンスライブラリはすべて、単一の pyforest ライブラリを通じてインポートできます。ライブラリの Github リポジトリから抽出したこの例を見てみましょう。

ワクワクしますか? Pyforest には現在、pandas、NumPy、matplotlib などのデータサイエンスライブラリが含まれています。

pip install pyforest を呼び出してライブラリをマシンにインストールするだけで、1 行のコードですべての一般的な Python データサイエンスライブラリをインポートできます。

 pyforestからのインポート *

すごいですね！私と同じように、あなたもきっと楽しんで使えると思います。

HungaBunga – sklearn ライブラリを使用して機械学習モデルを構築する別の方法

構築された機械学習モデルから最も適切なものを選択するにはどうすればよいでしょうか? 正しいハイパーパラメータが確実に機能するようにするにはどうすればよいでしょうか? これらは、データサイエンティストが答える必要のある重要な質問です。

HungaBunga プロジェクトを使用すると、ユーザーは他のほとんどのデータベースよりも速く回答を見つけることができます。 sklearn ライブラリ内のすべてのモデル (そうです、すべてです!) をすべての可能なハイパーパラメータで実行し、クロス検証を使用してモデルをランク付けします。

すべてのモデル（分類モデルと回帰モデルを含む）をインポートする方法は次のとおりです。

hunga_bunga から HungaBungaClassifier、HungaBungaRegressor をインポートします

教師あり機械学習アルゴリズムの包括的な説明については、次の記事を参照してください。

一般的な機械学習アルゴリズム（Python と R を使用）

ディープラーニングプロジェクト

DeepMindがリリースした強化学習用Behavior Suite（bsuite）

最近、年々増加しているディープマインドの巨額損失がニュースになっています。しかし、強化学習の研究において同社がまだはるかに先を進んでいることは認めざるを得ない。彼らはこの分野に多くの人的資源とリソースを投入しており、強化学習が人工知能の未来であると信じています。

ここでは、最新のオープンソース製品である bsuite を紹介します。このプロジェクトは、強化学習オブジェクトの中核特性を理解することを目的とした多くの実験の結果をまとめたものです。

私はこの研究分野が好きです。なぜなら、この研究分野は必然的に 2 つの目標 (Github リポジトリごとに 1 つ) を達成しようと努めているからです。

効率的で一般的な機械学習アルゴリズムの設計で遭遇する主要な問題を捉えた、価値があり一般化可能なプロジェクトを収集します。
普遍的なスケールを基準として、オブジェクトの動作をそのパフォーマンスによって研究します。

この Github リポジトリでは、bsuite の使用方法が詳しく説明されています。

読者は BERT について聞いたことがあるはずです。これは、自然言語処理 (NLP) の分野で最も人気のあるフレームワークであり、ますます広く使用されている Transformer アーキテクチャに基づいています。

ただし、実行には大量のリソースが必要になる可能性があるので注意してください。では、データサイエンティストはどのようにして自分のマシンで BERT を実行できるのでしょうか? さらに一歩進んで、DistilBERT を使用してください。

DistilBERT は、PyTorch 変換フレームワークチームによって開発された Distillated-BERT の略です。これは、BERT アーキテクチャ上に構築された小型で安価な Transformer モデルです。開発チームによれば、DistilBERT は BERT よりも 60% 高速に実行され、パフォーマンスは BERT と 5% 未満の差しかないとのことです。

この Github リポジトリでは、DistilBERT が Python コードと連携してどのように動作するかについて説明します。 PyTorch-Transformers フレームワークとそれを Python で使用する方法の詳細については、以下のリンクをクリックしてください。

Pytorch-Transformers の紹介: 本当に素晴らしい NLP ライブラリ (Python コード付き)

ShuffleNet シリーズ - モバイルデバイス向けの非常に効率的な畳み込みニューラルネットワーク

次はコンピュータービジョンプロジェクトです。ShuffleNet は、計算能力が限られているモバイルデバイスに最適な、計算効率の高い畳み込みニューラルネットワークアーキテクチャです。

この Github リポジトリには、次の ShuffleNet モデル (複数あります) が含まれています。

ShuffleNet: モバイルデバイス向けの非常に効率的な畳み込みニューラルネットワーク
ShuffleNetV2: 効率的な CNN アーキテクチャ設計のための実用的な提案
ShuffleNetV2+: ShuffleNetV2の拡張バージョン
ShuffleNetV2.Large: ShuffleNetV2 のより深いバージョン
OneShot: 均一サンプリングによるシングルチャネルシングルショットニューラルアーキテクチャ
DetNAS: 物体検出技術の研究を支援

RAdam – 学習率の分散を増やす

現在、2週間も経たないうちにリリースされたRAdamプロジェクトは、1,200を超える星を獲得しています。これは、この倉庫が非常に強力であることを証明しています。

RAdam の開発者は論文 (https://arxiv.org/pdf/1908.03265.pdf) で、ディープラーニング技術の収束問題は、モデルトレーニングの初期段階での適応学習率の大きな変動によるものであることを示しました。

RAdam は、適応学習率の変化を修正できる Adam の新しいバージョンです。このバージョンでは、通常の Adam オプティマイザーに大幅な改良が加えられ、分散の問題が改善されています。

異なる学習率を扱う場合の RAdam のパフォーマンスを Adam および SGD と比較すると次のようになります (x 軸はトレーニングラウンドの数を表します)。

機械学習の最適化に関する以下のガイド（Adam をカバー）を必ず確認してください。

機械学習における勾配降下法アルゴリズム（および変数タイプ）の紹介

プログラミングプロジェクト

ggtext – ggplot2 のテキストレンダリングの改善

このプロジェクトは、コミュニティ内のすべての R ユーザー、特に ggplot2 パッケージを定期的に使用するユーザー (ほぼ全員) にとって非常に役立ちます。

Ggtext パッケージを使用すると、生成された画像にリッチテキストをレンダリングできます。 ggtext で実行できる操作の一部を以下に示します。

element_markdown() という新しいテーマ要素を生成します。これはテキストをマークダウンまたは HTML としてレンダリングできます。
画像を軸に挿入します（下図参照）
geom_richtext() 関数を使用して、マークダウン/HTML タグを作成します (以下を参照)

この GitHub リポジトリには、自分のマシンで再現できる簡単な例がいくつか含まれています。

Ggtext はまだ CRAN から入手できないため、ユーザーは次の手順で GitHub からダウンロードしてインストールする必要があります。

<<: 5G自動運転はどのようなものになるのでしょうか?韓国のテストではこの結果が出た

>>: 世界トップ10のAIトレーニングチップの包括的なレビュー

ブログ

ブログ

学生がChatGPTで不正行為をするのを防ぐために、大学の教授たちは紙ベースの試験を復活させたり、口頭試験に切り替えたりし始めている。ネットユーザー：幸いにも私は卒業した

レビュー: 8 月に Github で注目すべき 7 つのデータサイエンスプロジェクト

AI研究所が超大規模知能モデル「Wudao 1.0」をリリース

ゲームにおける経路探索アルゴリズムの深い理解

2024年のテクノロジートレンド

新素材の画期的な進歩、AIの医療への参入…2021年はどんな新しい技術トレンドを迎えるのでしょうか？

学生がChatGPTで不正行為をするのを防ぐために、大学の教授たちは紙ベースの試験を復活させたり、口頭試験に切り替えたりし始めている。ネットユーザー：幸いにも私は卒業した

アート業界におけるメタバースの探究

消費者のニーズとホテル業界の問題点を洞察し、ShowBaoトラベルフォンはニーズを満たすために生まれました

推薦する

人工知能の導入により AR/VR はどこへ向かうのでしょうか?

AI = ニューラルネットワーク？これら 8 つのテクニックはそうではありません!

オーストラリアの裁判所が判決：人工知能システムDABUSが特許発明者として認められる！

NvidiaとGenentechがAIを活用して新薬発見を加速させる提携

Keras または TensorFlow?プログラマーはディープラーニングフレームワークをどのように選択すべきでしょうか?

人工知能があなたの好きな家を見つけるお手伝いをします

CNNとRNNについての簡単な説明

NVIDIA が TensorRT-LLM の新バージョンをプレビュー: 推論能力が 5 倍に向上、8GB 以上のグラフィックカードがローカルで実行可能、OpenAI の Chat API をサポート

インテリジェント製造の波に乗って、マシンビジョン業界は新たな時代を迎えているのでしょうか?

0コードの微調整大型モデルが人気で、わずか5ステップで、コストは150元と低い