機械学習は、足を上げることから敷居に落ちることまで行います

機械学習は、足を上げることから敷居に落ちることまで行います

突然、AI 時代に入ったようです。裏では、多くの友人が、来たる All in AI を迎えるために、どのような準備をすればよいのか、実は非常に困惑しています。

ということで、今日の記事はここまでです。今日は、機械学習における私の現在の旅を皆さんと共有したいと思います。私はまだ機械学習の分野に入ったとは思っていないので、いわゆる経験や成功した実践はありません。

[[202383]]

まず、私が常に信じている3つのことをお話ししたいと思います。

  • 機械学習のために機械学習を行わないでください。
  • 機械学習は、ビジネスニーズを理解し、ビジネス開発と連携できる場合にのみ効果を発揮します。純粋な機械学習は役に立ちません。
  • Python は素晴らしいです。2.7 を使用してください。

業界最先端の機械学習は基本的にPythonとC++のみに対応しています。業界標準なのでPythonを使いましょう。

ビッグデータにはSparkの方が実用的です。

ビッグデータ環境では、Spark が実際に最も実用的で、最も多くのシナリオを備えています。

どうやって始めますか?

足が3cm上がりました。目標: 目を見張らせること。

まず、比較的マクロな視点から、機械学習の全体像を総合的に理解することができます。機械学習で何ができるのか、どのような問題を解決できるのか、そしてどのようなルーチンがあるのか​​を確認します。

機械学習とは、既存の特徴に基づいてモデルをトレーニングし、そのモデルに基づいて未知のデータを予測することです。

多くの友人は、サポートベクターマシン、ロジスティック回帰、LASSO、決定木などのアルゴリズムを最初から掘り下げて、その原理を非常に深く理解しようとします。個人的には、このアプローチは少し問題があると思います。これらのアルゴリズムを学びたいだけなら、それで大丈夫です。長期的には、やはり全体像を把握する必要があります。

  • 機械学習の図解
  • 集合知のプログラミング
  • 周志華による機械学習

私はステップバイステップで解説されている 3 冊の本をすべて購入しました。最初の本は機械学習アルゴリズムをわかりやすく説明したもので、興味深い入門書として非常に優れています。

2 冊目の本は、現在の機械学習で何ができるのか、そして Python がこれらの機械学習アルゴリズムをどのように実装しているのかについて書かれています。コード愛好家なら、この本で達成感を味わえるでしょう。まずはざっと目を通し、それから戻って章ごとにもう一度読み、コードを 1 行ずつ入力することをお勧めします。意味がわからなくても、入力して試してみるだけで十分です。

3冊目は、機械学習のプロセスと各アルゴリズムの厳密な数学的導出プロセスを体系的に解説しています。非常に厳密で、高い数学的スキルが求められます。数学が苦手な人は、買っても理解できないので、とりあえず買わないという選択もできます。

まあ、3冊全部買う必要はありません。全部読んでも読み終えることはできないでしょう。急いでいるなら原作を読んでみればいい。視野は広がるけど、ご飯がない…。

足が5cm上がりました。目的: アルゴリズムを理解する。

この段階で、アルゴリズムの原理をすべて読み始めることができます。メインの本は、前述の「機械学習」です。英語力が十分であれば、Coursera で Andrew NG の機械学習に関する公開コースを受講できます。英語が苦手な方は、Zou Bo 先生の「実践機械学習」を試してみてください。これは中国語の説明が付いた非常に優れた入門チュートリアルです。

もちろん、師匠はあなたをドアまで導くことしかできませんが、実践はあなた次第です。

チュートリアルや本がどれだけ優れていても、役に立ちません。時間をかけて、各アルゴリズムの背後にある原理と、さまざまな最適化手法の仕組みをゆっくりと徹底的に理解する必要があります。

たとえば、線形回帰は次のような高度な方法で学習できます。

純粋な線形回帰。最小二乗法とは何ですか? また、損失関数はどのように計算しますか?

カーネル関数。多項式線形回帰とガウスカーネル線形回帰とは何ですか。

正規化。正規化とは何ですか? その目的は何ですか? LASSO、リッジ回帰、ElasticNet とは何ですか? L0、L1、L2 正規化は何を表していますか?

一般化線形モデル。一般化線形モデルは何をカバーしますか? どのように抽象化され、導出されるのですか?

以上です。少しずつ深く理解し、一度にすべてのモデルを学習しないでください。しかし、個人的には、まず線形回帰、ロジスティック回帰、および決定木を全部読むことをお勧めします。やっぱり分かりやすくて使いやすい。難しすぎるものはさすがにできない!!! 逃げるのは恥だが役に立つ。

足が6cm上がりました。目標: 実績のあるフレームワークを活用する。

この段階では、紹介する良い本はありません。 scikit-learn を使用して、以前に解決した問題を解いてください。 自分で実装するよりも非常に簡単で、はるかに高速であることがわかります。

足が6.5cm上がりました。目的: ニューラル ネットワークを始める。

Tenfowflow公式サイトのデモを理解して入力してください。層を剥がして、RNN、CNN、GAN など、現在非常に人気のあるニューラル ネットワーク構造の原理を見てみましょう。ディープラーニングは現在、これら 3 つの兄弟と切り離すことはできません。それでも分からない場合は、Mo Fan Tenfowflow を検索してください。かなり入門的ですが、あくまで入門です。たぶん理解できると思います。

上記の手順を完了していれば、私のように自慢することもできますが、実際には役に立ちません。

足が7cm上がりました。目標: 練習を始めます。

Kangle に入り、アカウントを登録して、Titanic を起動します。

足が7.5cm上がりました。目標: 実用的なことに焦点を当て始めます。

ここまでいろいろ述べてきましたが、実際にはまだ何も実装していません。モデルをどのようにトレーニングすればよいでしょうか? ビジネスと組み合わせて適用するにはどうすればよいでしょうか? 電力についてはまだ何もわかっていません。背景に「MVP」と返信して、まずは見てみましょう。モデルトレーニングサービスを提供する方法はおそらくいくつかしかありません。詳しく説明すると、記事が長くなりすぎて批判されるでしょう。

足が10cm上がりました。目標: 私は数学があまり得意ではないことに気づき始めました。

  • 確率論と数理統計学 陳希如著
  • 線形代数の学習方法

まあ、ゆっくり時間をかけて追いつきます。すぐには追いつけないので T_T。

足が11cm上がりました。目的: 特徴エンジニアリングについて。

優れた機能は戦いの半分を勝ち取ります。業界には、半分冗談だが、ある意味真実である格言がある。特徴の選択と特徴のクリーニングによってモデルの上限が決定され、アルゴリズムと最適化は常にこの上限に近づきます。

システムは特徴エンジニアリングについて学習します。特徴選択については、Baidu に直接多くの情報が掲載されているので、私が書いた内容は他のものほど良くないため、ここでは提供しません。

特別なエンジニアリングは非常に重要です!

敷居に落ちる。目標: 最先端技術の根底にある原理を深く理解すること。

MapReduce 原則、Li Mo のパラメーター原則、GAN 原則、LPA 原則など、過去の優れた論文をいくつかフォローアップします。論文はたくさんあるので、練習しながら読んでください。私はあまり読んでいないので、何も共有できません。

それで、私は敷居に落ちてしまい、まだ入れず、その上の段階でまだ一生懸命頑張っています。

もちろん、上記に挙げた本や論文以外にも読むべきものはたくさんあります。できるだけ早く吸収できるといいですね。人生には機械学習以上のものが存在します。人生は、確かに遠い場所や詩だけではありません。悲しいことに、遠い場所に行くと、そこにある詩を理解できないことに気づきます。

  • レディースティー
  • 華山が兵法を解説
  • 論語(完全口語訳)
  • 初心者のための統計学
  • 「詳細かつ簡単なデータ分析」
  • ビッグデータインテリジェンス
  • ディープラーニング
  • 「エレガントな理由」
  • :heavy_check_mark:イノベーションのジレンマ
  • :heavy_check_mark:数学の美しさ

ねえ、本のリストがどんどん長くなってきているから、ゆっくりしてください。さて、私の話はこれで終わりです。誇張したり批判したりするつもりはありません。上記のプロセスでは、少なくとも半年間は空き時間に昼夜を問わず取り組む必要があります。みんなでよく練習し、一緒に学んでください。

<<:  あなたは人工知能に洗脳され、最も賢いお金はこれらの16の技術に目を向けています

>>:  アリババのナレッジグラフが初めて公開: 1日あたり数千万のブロックデータ、数十億の完全インテリジェント監査

ブログ    
ブログ    
ブログ    

推薦する

ロボット導入の「秘密」:継続的な学習、知識の伝達、自律的な参加

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

この新しい自己蒸留フレームワーク、新しいSOTAは、トレーニングコストを削減し、ネットワークの変更を必要としません。

ディープラーニングは人工知能(AI)分野の継続的な発展を促進し、多くの技術的進歩を達成しました。同時...

...

MATRIX: 社会シミュレーションは、GPT4よりも配慮した大規模なモデル値の自己整合を促進します

ChatGPT などのモデルは、人間のフィードバックからの強化学習 (RLHF) に依存しており、注...

数千億単位の数学専用大規模モデルMathGPTが公開テストを開始

国内の大型模型市場に新たな「プレーヤー」が誕生しました。今回は数学に特化した大型模型です。 Sync...

百度、599ドルのスマートビデオスピーカーを発売

[元記事は51CTO.comより]「アリスマートスピーカーTmall Genie原価499元、クーポ...

2021 年に知っておくべきすべての機械学習アルゴリズム

機械学習に関する知識が増えるにつれて、機械学習アルゴリズムの数も増えました。この記事では、データ サ...

...

ウルトラマンの顔を平手打ちしろ、GPT-4 は今年は去年よりも怠惰だ!ネットユーザーによるオンラインテスト結果

GPT-4 が怠惰になる問題の解決に新たな進歩があります。今朝、ウルトラマンが、新年には GPT-4...

AIが「自由意志」を持つとき

人工知能が盛んに使われる一方で、この技術に伴う問題や潜在的な脅威も現れつつあります。 AI技術の「価...

...

...

Think2Drive: 自動運転のための初のモデルベース RL 手法 (上海交通大学)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

人工知能技術は若者の雇用にどのような影響を与えるでしょうか?

人工知能の発展の過程で、常に次のような声が聞かれます。「人工知能によって、特に若者を中心に、失業者が...

...