11月に最も人気のあるオープンソース機械学習プロジェクトとRedditの議論トップ5

11月に最も人気のあるオープンソース機械学習プロジェクトとRedditの議論トップ5

導入

データ サイエンティストになる上で最も良いことの 1 つはプログラミングです。多くの場合、私はプロジェクトをゼロからプログラミングすることに没頭しています。自分の努力が成功したモデルを生み出すのを見るのは本当に興奮します!

しかし、データ サイエンティスト (またはプログラマー) としては、さまざまな段階でコード チェックポイントを作成することも同様に重要です。前回どこから始めたかを知っておくと非常に役立ちます。そうすれば、過去のコードを確認したり、コードを別のパスに分岐したりする必要がある場合でも、常にフォールバックする余地があります。これが、GitHub が人気のコード プラットフォームである理由です。

このシリーズの以前の記事では、すべてのデータ サイエンティストがアクティブな GitHub アカウントを持つ必要がある理由について説明しました。コラボレーション、コードのやり直しや結合、教育目的など、コーディングのスキルと知識を高めるのに最適なプラットフォームです。

それでは、この記事の核心である機械学習コードについて説明しましょう。私は、すべてのデータ サイエンティストが試してみるべき興味深いプロジェクトをいくつか選びました。

プログラミング以外にも、データ サイエンティストになるには多くの側面が関係します。コミュニティの最新の動向、他の機械学習の専門家や思想的リーダーが何を話しているのか、物議を醸すプロジェクトに取り組むことの倫理的な影響は何かなど、すべてを把握しておく必要があります。そのため、私は Reddit での議論を記事に含めました。

GitHub ホットプロジェクト

オープン AI 深層強化学習リソース

[[253640]]

プロジェクトアドレス: https://github.com/openai/spinningup

このシリーズでは、強化学習のリソースを継続的に追加していきます。これまでで最大のリソースは、OpenAI のリソース無料提供です。これは、誰もが簡単に深層強化学習を学習できるようにすることを目的としたオープンソースの教育リソースです。強化学習はほとんどの人にとって複雑すぎることを考慮すると、これは初心者に優しい知識ベースです。

このリポジトリには便利なリソースがいくつか含まれています:

  • RL用語、さまざまなアルゴリズム、基礎理論の紹介
  • RL研究者として成長する方法に関する論文
  • トピック別の重要論文リスト
  • 主要なアルゴリズムの短いスタンドアロン実装のリポジトリ
  • 練習するためのいくつかの小さな練習

NVIDIA の WaveGlow

プロジェクトアドレス: https://github.com/NVIDIA/waveglow

これはオーディオおよび音声処理の分野の人々向けです。 WaveGlow は、音声合成のためのフローベースの生成ネットワークです。言い換えれば、メルスペクトログラムから高品質の音声を生成できるネットワーク(そうです、単一のネットワークです!)です。

このプロジェクトには、WaveGlow の PyTorch 実装と事前トレーニング済みモデルが含まれています。これは本当に素晴らしいフレームワークです。さらに詳しく知りたい場合は、以下のリンクをクリックしてください。

  • 研究論文: https://arxiv.org/abs/1811.00002
  • オーディオサンプルデモウェブサイト: https://nv-adlr.github.io/WaveGlow

サービスとしてのBERT

プロジェクトアドレス: https://github.com/hanxiao/bert-as-service

先月の投稿では BERT の PyTorch 実装を紹介しましたが、ここでは別のバージョンを紹介します。 BERT を初めて知る方のために説明すると、BERT は Bidirectional Encoder Representations from Transformers の略です。言語表現を事前トレーニングする方法です。

BERT の結果は NLP の世界に輝きをもたらし、Google の研究者は研究を促進するためにいくつかの事前トレーニング済みモデルをリリースしてくれました。

このコードベースでは、BERT を文エンコーダーとして使用し、ZeroMQ を通じてアクセス可能なサービスとして使用しているため、文を固定長の特徴表現にマッピングするには 2 行のコードのみが必要です。 BERT は使いやすく、非常に高速で、拡張性も高いです。ぜひお試しください!

Google クイック ドロー ゲーム Python 実装

[[253642]]

プロジェクトアドレス: https://github.com/1991viet/QuickDraw

Quick Draw は、Google が開発した人気のオンライン ゲームで、ニューラル ネットワークが描画内容を推測します。ニューラル ネットワークは各描画から学習し、落書きの内容を正確に推測する能力が向上します。開発者たちは、ユーザーが以前に描いた落書きから膨大なデータセットを構築しました。これはオープンソースのデータセットです。データセットのアドレスは次のとおりです: https://github.com/googlecreativelab/quickdraw-dataset。

このリポジトリに基づいて、Python で独自の Quick Draw ゲームを構築できるようになりました。詳細なチュートリアルがあります。このコードを使用すると、コンピューターのカメラの前で描画し、キャンバスにも描画するアプリケーションを実行できます。

GANの理解と可視化

プロジェクトアドレス: https://github.com/CSAILVision/gandissect

GAN 分解は、MIT のコンピューター科学および人工知能研究所の研究者によって開発された手法であり、敵対的生成ネットワーク (GAN) のニューロンを視覚化して理解するための独自の方法です。しかし、それだけではありません。研究者たちは、GAN 分解がどのように機能するかを示すために GANPaint も作成しました。

GAN 分解は、特定の GAN モデルの内部ニューロンを検査および操作することで、GAN モデルが学習した内容を探索します。まず研究論文とビデオデモをチェックし、その後すぐに GitHub リポジトリにアクセスしてコードを調べてみましょう。

Reddit ディスカッション

そもそもなぜ勾配降下法が必要なのでしょうか?

https://www.reddit.com/r/MachineLearning/comments/9sfv8x/d_a_note_on_why_gradient_descent_is_even_needed/

機械学習の基本的な概念を学習しているときに、この疑問が頭に浮かんだことはありませんか?勾配降下法は、学習の初期段階で遭遇する基本的なアルゴリズムの 1 つであり、ML で非常に効果的であることが証明されています。しかし、この記事を読み始めると、これまで学んだことすべてに疑問を感じるでしょう。

最初は単純な質問として始まったものが、Reddit の幹部の間で大きな議論に発展しました。私はこれらのレビューを閲覧して大いに楽しみました。この分野に興味があり、数学に対して真剣な姿勢を持っている人にとっては、これが役に立つと思います。

大規模ニューラルネットワークのリバースエンジニアリング

https://www.reddit.com/r/MachineLearning/comments/9symfk/d_reverseengineering_a_massive_neural_network/

複雑で大規模なニューラル ネットワークの開発者が、ネットワークを理解するために必要なドキュメントを一切残さずに突然姿を消してしまったら、どうしますか?これは根拠のない作り話ではなく、実際に起こるよくある状況であり、質問者自身もそれに遭遇したことがあります。

これは開発者にとってはよくあることですが、ディープラーニングに関してはまったく新しい状況です。この記事では、科学者がディープモデルの元の設計アイデアを復元するために使用できるいくつかの方法を紹介します。いくつかの回答は実際的でしたが、他の回答はばかげていましたが、それぞれが視点を追加しました。いつかあなたがこのような状況に陥ったとき、彼らがあなたを助けてくれるかもしれません。

TensorFlow 2.0 API に関する議論

https://www.reddit.com/r/MachineLearning/comments/9ysmtn/d_debate_on_tensorflow_20_api/

このトピックに関する多数のコメントに注目しました (この記事を書いている時点で 110 件のコメント)。これほど多くの論争を引き起こすトピックは、いったい何でしょうか?しかし、読み進めていくと、討論者の間で意見がまったく異なっていることに驚きます。 TensorFlow が「優れたフレームワークではない」と揶揄されていることに加えて、多くの人が PyTorch を賞賛しています (PyTorch を使用したことがある人なら、これは驚くべきことではないことがわかるでしょう)。

すべては、Francois Chollet 氏が GitHub にアイデアを投稿し、機械学習コミュニティに火をつけたことから始まりました。

予測報酬による強化学習

https://www.reddit.com/r/MachineLearning/comments/9tangi/r_reinforcement_learning_with_predictionbased/

この記事で紹介する別の OpenAI プロジェクトは、OpenAI にとってまた別の大きな進歩です。タイトルはそれほど特別なものではないように思えるかもしれませんが、OpenAI チームが何をしたかを理解する必要があります。あるRedditユーザーが指摘したように、OpenAIの研究は人間の行動を模倣できる機械の実現に一歩近づかせてくれる。

約 1 年間のトレーニングを経て、Montezuma's Revenge ゲームを人間のパフォーマンスを超えたレベルでクリアしました。これはかなり印象的です。

データサイエンティストの仕事を見つけた

https://www.reddit.com/r/datascience/comments/9xxm3w/landed_my_first_job_as_a_data_scientist/

これは、データ サイエンティストを目指す人向けの記事です。記事の著者は、どのようにしてこの憧れの仕事に就いたのか、経歴、データサイエンスをどこで学んだのかなどについて説明します。これらの標準的な質問に答えた後、彼は同様の状況にある人々が自分の野心を達成するために何ができるかについて非常に優れた記事を書きます。

記事の最後には役立つ提案もいくつか記載されています。もちろん、著者にあなた自身の質問をすることもできます。

結論

今月はかなりのコレクションがあります。個人的には、GAN 分析コードベースは非常に魅力的だと思います。現在、自分のデバイスでこれを再現しようとしていますが、うまくいくはずです。また、私は「大規模ニューラル ネットワーク リバース エンジニアリング」スレッドにも注目しています。このスレッドで提示されたアイデアは、私が同じ窮地に陥った場合に非常に役立つからです。

あなたのお気に入りの GitHub プロジェクトは何ですか?どの Reddit スレッドが群を抜いて目立つと思いますか?メッセージを残して私たちに知らせてください。

<<:  ピュー研究所の報告:2025年までにAIのせいで7500万人が解雇される

>>:  2018年末のAI分野におけるオープンソースフレームワークのまとめ

ブログ    
ブログ    

推薦する

適切な機械学習アルゴリズムを簡単に選択する方法を教えます。

[[327632]] 【51CTO.com クイック翻訳】この質問に対する単純で明確な答えはありま...

AppleがAI研究成果を公開、マルチモーダルLLMモデルFerretをリリース

IT Homeは12月25日、Appleがコロンビア大学の研究者らと協力して2023年10月にオープ...

TFとPyTorchだけを知っているだけでは不十分です。PyTorchから自動微分ツールJAXに切り替える方法を見てみましょう。

現在のディープラーニング フレームワークに関しては、TensorFlow と PyTorch を避け...

人工知能を活用するための5つのベストプラクティス

生産性、精度、意思決定能力を向上させるために人工知能 (AI) を導入する手法は、さまざまな業界で広...

なぜ機械学習エンジニアになりたいのですか?それは情熱や熱のせいでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

年間100万ドルの給料でも、このタイプの才能のギャップを埋めることはできません。 AI業界も「人手不足」

年収100万の仕事に就くことを夢見たことがありますか?人工知能業界に参入して、あなたの夢を現実にしま...

Baidu Create 2018 ディープラーニング フロンティア テクノロジーと産業応用公開コースのハイライト

[51CTO.com からのオリジナル記事] 中国の開発者が集まる毎年恒例の盛大な集まりである Ba...

機械学習に必要な確率論の基礎

この記事を読んでいただければ、確率の基本原理を機械学習に応用できる可能性が 100% あります。機械...

突然!人気のAI企業が倒産の危機に!創設者は辞任を求められました!

執筆者 | Yan Zheng制作:51CTO テクノロジースタック(WeChat ID:blog)...

アルゴリズム博士の平均月収は4万元、データ可視化スキルは世界中で需要が高い

​​2020年現在、ほとんどの人にとって「ビッグデータ」という言葉に馴染みがないということはないでし...

...

RayDF: リアルタイムレンダリング!光線に基づく3D再構成の新しい方法

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

清華大学が世界初のオンチップ学習メモリスタメモリコンピューティング統合チップを開発、その成果がサイエンス誌に掲載された。

10月9日、清華大学の公式Weiboアカウントは、オンチップ学習をサポートする世界初のメモリスタス...