11月に最も人気のあるオープンソース機械学習プロジェクトとRedditの議論トップ5

導入

データサイエンティストになる上で最も良いことの 1 つはプログラミングです。多くの場合、私はプロジェクトをゼロからプログラミングすることに没頭しています。自分の努力が成功したモデルを生み出すのを見るのは本当に興奮します！

しかし、データサイエンティスト (またはプログラマー) としては、さまざまな段階でコードチェックポイントを作成することも同様に重要です。前回どこから始めたかを知っておくと非常に役立ちます。そうすれば、過去のコードを確認したり、コードを別のパスに分岐したりする必要がある場合でも、常にフォールバックする余地があります。これが、GitHub が人気のコードプラットフォームである理由です。

このシリーズの以前の記事では、すべてのデータサイエンティストがアクティブな GitHub アカウントを持つ必要がある理由について説明しました。コラボレーション、コードのやり直しや結合、教育目的など、コーディングのスキルと知識を高めるのに最適なプラットフォームです。

それでは、この記事の核心である機械学習コードについて説明しましょう。私は、すべてのデータサイエンティストが試してみるべき興味深いプロジェクトをいくつか選びました。

プログラミング以外にも、データサイエンティストになるには多くの側面が関係します。コミュニティの最新の動向、他の機械学習の専門家や思想的リーダーが何を話しているのか、物議を醸すプロジェクトに取り組むことの倫理的な影響は何かなど、すべてを把握しておく必要があります。そのため、私は Reddit での議論を記事に含めました。

GitHub ホットプロジェクト

オープン AI 深層強化学習リソース

[[253640]]

プロジェクトアドレス: https://github.com/openai/spinningup

このシリーズでは、強化学習のリソースを継続的に追加していきます。これまでで最大のリソースは、OpenAI のリソース無料提供です。これは、誰もが簡単に深層強化学習を学習できるようにすることを目的としたオープンソースの教育リソースです。強化学習はほとんどの人にとって複雑すぎることを考慮すると、これは初心者に優しい知識ベースです。

このリポジトリには便利なリソースがいくつか含まれています:

RL用語、さまざまなアルゴリズム、基礎理論の紹介
RL研究者として成長する方法に関する論文
トピック別の重要論文リスト
主要なアルゴリズムの短いスタンドアロン実装のリポジトリ
練習するためのいくつかの小さな練習

NVIDIA の WaveGlow

プロジェクトアドレス: https://github.com/NVIDIA/waveglow

これはオーディオおよび音声処理の分野の人々向けです。 WaveGlow は、音声合成のためのフローベースの生成ネットワークです。言い換えれば、メルスペクトログラムから高品質の音声を生成できるネットワーク（そうです、単一のネットワークです！）です。

このプロジェクトには、WaveGlow の PyTorch 実装と事前トレーニング済みモデルが含まれています。これは本当に素晴らしいフレームワークです。さらに詳しく知りたい場合は、以下のリンクをクリックしてください。

研究論文: https://arxiv.org/abs/1811.00002
オーディオサンプルデモウェブサイト: https://nv-adlr.github.io/WaveGlow

サービスとしてのBERT

プロジェクトアドレス: https://github.com/hanxiao/bert-as-service

先月の投稿では BERT の PyTorch 実装を紹介しましたが、ここでは別のバージョンを紹介します。 BERT を初めて知る方のために説明すると、BERT は Bidirectional Encoder Representations from Transformers の略です。言語表現を事前トレーニングする方法です。

BERT の結果は NLP の世界に輝きをもたらし、Google の研究者は研究を促進するためにいくつかの事前トレーニング済みモデルをリリースしてくれました。

このコードベースでは、BERT を文エンコーダーとして使用し、ZeroMQ を通じてアクセス可能なサービスとして使用しているため、文を固定長の特徴表現にマッピングするには 2 行のコードのみが必要です。 BERT は使いやすく、非常に高速で、拡張性も高いです。ぜひお試しください！

Google クイックドローゲーム Python 実装

[[253642]]

プロジェクトアドレス: https://github.com/1991viet/QuickDraw

Quick Draw は、Google が開発した人気のオンラインゲームで、ニューラルネットワークが描画内容を推測します。ニューラルネットワークは各描画から学習し、落書きの内容を正確に推測する能力が向上します。開発者たちは、ユーザーが以前に描いた落書きから膨大なデータセットを構築しました。これはオープンソースのデータセットです。データセットのアドレスは次のとおりです: https://github.com/googlecreativelab/quickdraw-dataset。

このリポジトリに基づいて、Python で独自の Quick Draw ゲームを構築できるようになりました。詳細なチュートリアルがあります。このコードを使用すると、コンピューターのカメラの前で描画し、キャンバスにも描画するアプリケーションを実行できます。

GANの理解と可視化

プロジェクトアドレス: https://github.com/CSAILVision/gandissect

GAN 分解は、MIT のコンピューター科学および人工知能研究所の研究者によって開発された手法であり、敵対的生成ネットワーク (GAN) のニューロンを視覚化して理解するための独自の方法です。しかし、それだけではありません。研究者たちは、GAN 分解がどのように機能するかを示すために GANPaint も作成しました。

GAN 分解は、特定の GAN モデルの内部ニューロンを検査および操作することで、GAN モデルが学習した内容を探索します。まず研究論文とビデオデモをチェックし、その後すぐに GitHub リポジトリにアクセスしてコードを調べてみましょう。

Reddit ディスカッション

そもそもなぜ勾配降下法が必要なのでしょうか?

https://www.reddit.com/r/MachineLearning/comments/9sfv8x/d_a_note_on_why_gradient_descent_is_even_needed/

機械学習の基本的な概念を学習しているときに、この疑問が頭に浮かんだことはありませんか?勾配降下法は、学習の初期段階で遭遇する基本的なアルゴリズムの 1 つであり、ML で非常に効果的であることが証明されています。しかし、この記事を読み始めると、これまで学んだことすべてに疑問を感じるでしょう。

最初は単純な質問として始まったものが、Reddit の幹部の間で大きな議論に発展しました。私はこれらのレビューを閲覧して大いに楽しみました。この分野に興味があり、数学に対して真剣な姿勢を持っている人にとっては、これが役に立つと思います。

大規模ニューラルネットワークのリバースエンジニアリング

https://www.reddit.com/r/MachineLearning/comments/9symfk/d_reverseengineering_a_massive_neural_network/

複雑で大規模なニューラルネットワークの開発者が、ネットワークを理解するために必要なドキュメントを一切残さずに突然姿を消してしまったら、どうしますか?これは根拠のない作り話ではなく、実際に起こるよくある状況であり、質問者自身もそれに遭遇したことがあります。

これは開発者にとってはよくあることですが、ディープラーニングに関してはまったく新しい状況です。この記事では、科学者がディープモデルの元の設計アイデアを復元するために使用できるいくつかの方法を紹介します。いくつかの回答は実際的でしたが、他の回答はばかげていましたが、それぞれが視点を追加しました。いつかあなたがこのような状況に陥ったとき、彼らがあなたを助けてくれるかもしれません。

TensorFlow 2.0 API に関する議論

https://www.reddit.com/r/MachineLearning/comments/9ysmtn/d_debate_on_tensorflow_20_api/

このトピックに関する多数のコメントに注目しました (この記事を書いている時点で 110 件のコメント)。これほど多くの論争を引き起こすトピックは、いったい何でしょうか?しかし、読み進めていくと、討論者の間で意見がまったく異なっていることに驚きます。 TensorFlow が「優れたフレームワークではない」と揶揄されていることに加えて、多くの人が PyTorch を賞賛しています (PyTorch を使用したことがある人なら、これは驚くべきことではないことがわかるでしょう)。

すべては、Francois Chollet 氏が GitHub にアイデアを投稿し、機械学習コミュニティに火をつけたことから始まりました。

予測報酬による強化学習

https://www.reddit.com/r/MachineLearning/comments/9tangi/r_reinforcement_learning_with_predictionbased/

この記事で紹介する別の OpenAI プロジェクトは、OpenAI にとってまた別の大きな進歩です。タイトルはそれほど特別なものではないように思えるかもしれませんが、OpenAI チームが何をしたかを理解する必要があります。あるRedditユーザーが指摘したように、OpenAIの研究は人間の行動を模倣できる機械の実現に一歩近づかせてくれる。

約 1 年間のトレーニングを経て、Montezuma's Revenge ゲームを人間のパフォーマンスを超えたレベルでクリアしました。これはかなり印象的です。

データサイエンティストの仕事を見つけた

https://www.reddit.com/r/datascience/comments/9xxm3w/landed_my_first_job_as_a_data_scientist/

これは、データサイエンティストを目指す人向けの記事です。記事の著者は、どのようにしてこの憧れの仕事に就いたのか、経歴、データサイエンスをどこで学んだのかなどについて説明します。これらの標準的な質問に答えた後、彼は同様の状況にある人々が自分の野心を達成するために何ができるかについて非常に優れた記事を書きます。

記事の最後には役立つ提案もいくつか記載されています。もちろん、著者にあなた自身の質問をすることもできます。

結論

今月はかなりのコレクションがあります。個人的には、GAN 分析コードベースは非常に魅力的だと思います。現在、自分のデバイスでこれを再現しようとしていますが、うまくいくはずです。また、私は「大規模ニューラルネットワークリバースエンジニアリング」スレッドにも注目しています。このスレッドで提示されたアイデアは、私が同じ窮地に陥った場合に非常に役立つからです。

あなたのお気に入りの GitHub プロジェクトは何ですか?どの Reddit スレッドが群を抜いて目立つと思いますか?メッセージを残して私たちに知らせてください。

<<: ピュー研究所の報告：2025年までにAIのせいで7500万人が解雇される

>>: 2018年末のAI分野におけるオープンソースフレームワークのまとめ