基本に立ち返る: 一歩先を行くために読むべき 5 つのデータ サイエンス論文

基本に立ち返る: 一歩先を行くために読むべき 5 つのデータ サイエンス論文

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。

この記事では、データ サイエンス ワークフローのオーケストレーションから、より高速なニューラル ネットワークのブレークスルー、問題を解決するための基本的な統計手法の再考に至るまで、最近の最も重要な開発と影響力のあるアイデアをいくつか取り上げ、これらのアイデアを仕事に適用する方法も紹介します。

[[348575]]

1. 機械学習システムにおける隠れた技術的負債

リンク:

https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

Google リサーチ チームは、データ サイエンス ワークフローを作成する際に避けるべきアンチパターンについて明確な指示を提供します。この論文では、ソフトウェア エンジニアリングの技術的負債の比喩を借用し、それをデータ サイエンスに適用します。

画像出典: DataBricks

次の論文では、機械学習製品の構築がソフトウェア エンジニアリングの専門分野である理由と、この分野から得られる教訓の多くがデータ サイエンスにも当てはまる理由について詳しく説明します。

使用方法: 専門家からの実用的なヒントに従って、開発と生産を効率化します。

2. ソフトウェア 2.0

リンク: https://medium.com/@karpathy/software-2-0-a64152b37c35

Andrej Karpathy 氏の古典的な記事では、機械学習モデルはデータに基づくコードのソフトウェア アプリケーションであるというパラダイムが明確に示されました。データ サイエンスがソフトウェアであるなら、私たちは何を構築しているのでしょうか? Ben Bengafort は、影響力のあるブログ投稿「データ製品の時代」でこの疑問を探求しています。

(https://districtdatalabs.silvrback.com/the-age-of-the-data-product)

[[348576]]

データ プロダクトは、ML プロジェクトの運用化段階を表します。

使用方法: データ製品がモデル選択プロセスにどのように適合するかについて詳しく学習します。

3. BERT: 言語理解のためのDeepBidirectional Transformersの事前トレーニング

リンク: https://arxiv.org/abs/1810.04805

この論文では、Google の研究チームが、テキスト分析機能の大幅な改善を実現する自然言語処理モデルを提案しました。 BERT がなぜそれほど効果的なのかについては議論がありますが、これは、機械学習の分野では、その仕組みを完全に理解することなく、いくつかの成功する方法が見つかるということを思い出させてくれます。自然そのものと同様に、人工ニューラル ネットワークも謎に包まれています。

使い方:

  • BERT の論文は非常に読みやすく、初期段階で使用するための推奨されるデフォルトのハイパーパラメータ設定がいくつか含まれています。
  • NLP が初めてでもそうでなくても、Jay Alammar の「BERT のビジュアル ファーストタイム ガイド」を読んで、BERT の機能を学んでください。
  • また、仕事で BERT を簡単に実装するのに役立つ Keras (および TensorFlow) のコンポーネントである ktrain もチェックしてください。 Arun Maiya は、NLP、画像認識、グラフ理論手法の学習を加速するためにこの強力なライブラリを開発しました。

4. 宝くじ仮説: 疎で訓練可能なニューラルネットワークの発見

リンク: https://arxiv.org/abs/1803.03635

NLP モデルがますます大きくなるにつれて (GTP-3 の 1,750 億のパラメータを参照)、より小型で高速かつ効率的なニューラル ネットワークを直交的に構築する取り組みが行われています。このようなネットワークは、運用にかかる時間が短く、トレーニング コストが低く、必要なコンピューティング リソースも少なくなります。

この独創的な論文では、機械学習の天才であるジョナサン・フランクルとマイケル・カービンが、最初はかなり大きいニューラルネットワークでも、スパースなサブネットワークで同様のパフォーマンスを達成できることを示す剪定方法を概説しています。

ノーラン・デイの「宝くじ分解仮説」

宝くじは効能と非常に強いつながりがあることを意味します。この発見は、ストレージ、実行時間、計算パフォーマンスにおいて多くの利点をもたらし、ICLR 2019 で最優秀論文賞を受賞しました。さらなる研究によりこの技術が構築され、その適用可能性が確認され、元のスパース ネットワークに適用されました。

使い方:

  • 実稼働前にニューラル ネットワークのプルーニングを検討してください。ネットワークの重みをプルーニングすると、初期ネットワークと同じパフォーマンスを維持しながら、パラメータを 90% 以上削減できます。
  • また、Data Exchange ポッドキャストのこのエピソードもご覧ください。Ben Lorica が Neural Magic に、柔軟なユーザー インターフェイスでプルーニングや量子化などの手法を使用してスパース抽出を簡素化する取り組みについて語っています。 (https://neuralmagic.com/about/)

5. 帰無仮説の統計的検定の死の支配から解放する(p < .05)

リンク:

https://www.researchgate.net/publication/312395254_Releasing_the_death-grip_of_null_hypothesis_statistical_testing_p_05_Applying_complexity_theory_and_somewhat_precise_outcome_testing_SPOT

仮説検定はコンピュータが使用される前から存在していました。このアプローチに関連する課題(たとえば、統計学者でさえ p 値を解釈するのはほぼ不可能である)を考えると、Slightly Precise Outcome Test(SPOT)などの代替案を思いつくには時間がかかるかもしれません。

xkcdの重要性

使用方法: このブログ投稿「統計的仮説検定の終焉」をご覧ください。そこでは、不満を抱く統計学者が、従来の方法に関連するいくつかの課題を概説し、信頼区間を使用する別の方法を説明しています。

(https://www.datasciencecentral.com/profiles/blogs/the-death-of-the-statistical-test-of-hypothesis)

これら 5 つの論文は、データ サイエンスの理解を深めるのに役立ちます。

<<:  IT プロフェッショナルが CIO に人工知能について知ってほしい 9 つのこと

>>:  ついに! SM2 国家暗号アルゴリズムが Linux カーネル コミュニティに承認されました

ブログ    
ブログ    
ブログ    

推薦する

HipHop アルゴリズム: マイクロブログの相互作用関係を使用してソーシャル サークルをマイニングする

[[120924]] Weibo 環境において、Weibo ユーザーのソーシャル サークルや興味サー...

自動運転の実用化にはまだいくつかのハードルがある

ここ数年、世界的な自動運転はまだ発展途上であったとすれば、各国の政策の推進により、自動運転に関する最...

GoogleのAutoML人工知能システムは、人間よりも優れた機械学習コードを作成できるようになりました

Google の AutoML システムは最近、研究者自身よりもさらに効率的な一連の機械学習コードを...

人工知能は諜報機関の「大物」になると期待されている

諜報活動は私たちが想像するよりもはるかに退屈で複雑です。現在、米国の諜報機関は、手作業に代わる人工知...

MoEとMambaが協力し、状態空間モデルを数百億のパラメータに拡張

状態空間モデル (SSM) は、最近注目を集めている Transformer の代替手段です。その利...

金融技術分野における人工知能と機械学習の応用と開発

[[383269]] [51CTO.com クイック翻訳] 過去数年間、金融業界では、業界の絶え間な...

Swift モバイル ゲーム開発に適用される幅優先探索アルゴリズム

[51CTO.com クイック翻訳] Swift Algorithm Club (https://g...

ディープラーニングニューラルネットワークによる予測区間

[[390133]]予測区間は、回帰問題の予測における不確実性の尺度を提供します。たとえば、95% ...

...

疫病流行中に物流の円滑化に全力を尽くし、無人配送市場が活況を呈している

最近、国務院は貨物物流の円滑な流れを確保するために関連業務を展開するよう通知し、各地域と関連部門に主...

今後5年間の人工知能における5つのブレークスルー

会話ができるスマートスピーカーであれ、自分で絵を描くことができるバーチャルアーティストであれ、農家が...

インテリジェント チャットボットを自分で開発するための完全ガイド (完全なソース コード付き)

1. はじめに人工知能の時代において、独自のインテリジェントな質問応答ロボットを開発することは、一...

ロボット産業発展の鍵は人材にある

製造強国戦略の徹底的な実行の重要な部分として、ロボット産業はますます多くの人々の注目を集めています。...

人工知能はテクノロジーとデータガバナンスの進化を推進する

2019年以降、アジア太平洋地域全体で政府主導のAIに関する取り組みが急増しています。これらの取り組...

人間の運転、交通事故の最大の欠陥 | 自動運転車の交通安全に関する白書が発表

今年の自動運転業界は商用化がキーワードです。年末に、百度、中国自動車技術研究センター、同済大学が共同...