機械学習は、足を上げることから敷居に落ちることまで行います

突然、AI 時代に入ったようです。裏では、多くの友人が、来たる All in AI を迎えるために、どのような準備をすればよいのか、実は非常に困惑しています。

ということで、今日の記事はここまでです。今日は、機械学習における私の現在の旅を皆さんと共有したいと思います。私はまだ機械学習の分野に入ったとは思っていないので、いわゆる経験や成功した実践はありません。

[[202383]]

まず、私が常に信じている3つのことをお話ししたいと思います。

機械学習のために機械学習を行わないでください。
機械学習は、ビジネスニーズを理解し、ビジネス開発と連携できる場合にのみ効果を発揮します。純粋な機械学習は役に立ちません。
Python は素晴らしいです。2.7 を使用してください。

業界最先端の機械学習は基本的にPythonとC++のみに対応しています。業界標準なのでPythonを使いましょう。

ビッグデータにはSparkの方が実用的です。

ビッグデータ環境では、Spark が実際に最も実用的で、最も多くのシナリオを備えています。

どうやって始めますか?

足が3cm上がりました。目標: 目を見張らせること。

まず、比較的マクロな視点から、機械学習の全体像を総合的に理解することができます。機械学習で何ができるのか、どのような問題を解決できるのか、そしてどのようなルーチンがあるのかを確認します。

機械学習とは、既存の特徴に基づいてモデルをトレーニングし、そのモデルに基づいて未知のデータを予測することです。

多くの友人は、サポートベクターマシン、ロジスティック回帰、LASSO、決定木などのアルゴリズムを最初から掘り下げて、その原理を非常に深く理解しようとします。個人的には、このアプローチは少し問題があると思います。これらのアルゴリズムを学びたいだけなら、それで大丈夫です。長期的には、やはり全体像を把握する必要があります。

機械学習の図解
集合知のプログラミング
周志華による機械学習

私はステップバイステップで解説されている 3 冊の本をすべて購入しました。最初の本は機械学習アルゴリズムをわかりやすく説明したもので、興味深い入門書として非常に優れています。

2 冊目の本は、現在の機械学習で何ができるのか、そして Python がこれらの機械学習アルゴリズムをどのように実装しているのかについて書かれています。コード愛好家なら、この本で達成感を味わえるでしょう。まずはざっと目を通し、それから戻って章ごとにもう一度読み、コードを 1 行ずつ入力することをお勧めします。意味がわからなくても、入力して試してみるだけで十分です。

3冊目は、機械学習のプロセスと各アルゴリズムの厳密な数学的導出プロセスを体系的に解説しています。非常に厳密で、高い数学的スキルが求められます。数学が苦手な人は、買っても理解できないので、とりあえず買わないという選択もできます。

まあ、3冊全部買う必要はありません。全部読んでも読み終えることはできないでしょう。急いでいるなら原作を読んでみればいい。視野は広がるけど、ご飯がない…。

足が5cm上がりました。目的: アルゴリズムを理解する。

この段階で、アルゴリズムの原理をすべて読み始めることができます。メインの本は、前述の「機械学習」です。英語力が十分であれば、Coursera で Andrew NG の機械学習に関する公開コースを受講できます。英語が苦手な方は、Zou Bo 先生の「実践機械学習」を試してみてください。これは中国語の説明が付いた非常に優れた入門チュートリアルです。

もちろん、師匠はあなたをドアまで導くことしかできませんが、実践はあなた次第です。

チュートリアルや本がどれだけ優れていても、役に立ちません。時間をかけて、各アルゴリズムの背後にある原理と、さまざまな最適化手法の仕組みをゆっくりと徹底的に理解する必要があります。

たとえば、線形回帰は次のような高度な方法で学習できます。

純粋な線形回帰。最小二乗法とは何ですか? また、損失関数はどのように計算しますか?

カーネル関数。多項式線形回帰とガウスカーネル線形回帰とは何ですか。

正規化。正規化とは何ですか? その目的は何ですか? LASSO、リッジ回帰、ElasticNet とは何ですか? L0、L1、L2 正規化は何を表していますか?

一般化線形モデル。一般化線形モデルは何をカバーしますか? どのように抽象化され、導出されるのですか?

以上です。少しずつ深く理解し、一度にすべてのモデルを学習しないでください。しかし、個人的には、まず線形回帰、ロジスティック回帰、および決定木を全部読むことをお勧めします。やっぱり分かりやすくて使いやすい。難しすぎるものはさすがにできない!!! 逃げるのは恥だが役に立つ。

足が6cm上がりました。目標: 実績のあるフレームワークを活用する。

この段階では、紹介する良い本はありません。 scikit-learn を使用して、以前に解決した問題を解いてください。自分で実装するよりも非常に簡単で、はるかに高速であることがわかります。

足が6.5cm上がりました。目的: ニューラルネットワークを始める。

Tenfowflow公式サイトのデモを理解して入力してください。層を剥がして、RNN、CNN、GAN など、現在非常に人気のあるニューラルネットワーク構造の原理を見てみましょう。ディープラーニングは現在、これら 3 つの兄弟と切り離すことはできません。それでも分からない場合は、Mo Fan Tenfowflow を検索してください。かなり入門的ですが、あくまで入門です。たぶん理解できると思います。

上記の手順を完了していれば、私のように自慢することもできますが、実際には役に立ちません。

足が7cm上がりました。目標: 練習を始めます。

Kangle に入り、アカウントを登録して、Titanic を起動します。

足が7.5cm上がりました。目標: 実用的なことに焦点を当て始めます。

ここまでいろいろ述べてきましたが、実際にはまだ何も実装していません。モデルをどのようにトレーニングすればよいでしょうか? ビジネスと組み合わせて適用するにはどうすればよいでしょうか? 電力についてはまだ何もわかっていません。背景に「MVP」と返信して、まずは見てみましょう。モデルトレーニングサービスを提供する方法はおそらくいくつかしかありません。詳しく説明すると、記事が長くなりすぎて批判されるでしょう。

足が10cm上がりました。目標: 私は数学があまり得意ではないことに気づき始めました。

確率論と数理統計学陳希如著
線形代数の学習方法

まあ、ゆっくり時間をかけて追いつきます。すぐには追いつけないので T_T。

足が11cm上がりました。目的: 特徴エンジニアリングについて。

優れた機能は戦いの半分を勝ち取ります。業界には、半分冗談だが、ある意味真実である格言がある。特徴の選択と特徴のクリーニングによってモデルの上限が決定され、アルゴリズムと最適化は常にこの上限に近づきます。

システムは特徴エンジニアリングについて学習します。特徴選択については、Baidu に直接多くの情報が掲載されているので、私が書いた内容は他のものほど良くないため、ここでは提供しません。

特別なエンジニアリングは非常に重要です！

敷居に落ちる。目標: 最先端技術の根底にある原理を深く理解すること。

MapReduce 原則、Li Mo のパラメーター原則、GAN 原則、LPA 原則など、過去の優れた論文をいくつかフォローアップします。論文はたくさんあるので、練習しながら読んでください。私はあまり読んでいないので、何も共有できません。

それで、私は敷居に落ちてしまい、まだ入れず、その上の段階でまだ一生懸命頑張っています。

もちろん、上記に挙げた本や論文以外にも読むべきものはたくさんあります。できるだけ早く吸収できるといいですね。人生には機械学習以上のものが存在します。人生は、確かに遠い場所や詩だけではありません。悲しいことに、遠い場所に行くと、そこにある詩を理解できないことに気づきます。

レディースティー
華山が兵法を解説
論語（完全口語訳）
初心者のための統計学
「詳細かつ簡単なデータ分析」
ビッグデータインテリジェンス
ディープラーニング
「エレガントな理由」
:heavy_check_mark:イノベーションのジレンマ
:heavy_check_mark:数学の美しさ

ねえ、本のリストがどんどん長くなってきているから、ゆっくりしてください。さて、私の話はこれで終わりです。誇張したり批判したりするつもりはありません。上記のプロセスでは、少なくとも半年間は空き時間に昼夜を問わず取り組む必要があります。みんなでよく練習し、一緒に学んでください。

<<: あなたは人工知能に洗脳され、最も賢いお金はこれらの16の技術に目を向けています

>>: アリババのナレッジグラフが初めて公開: 1日あたり数千万のブロックデータ、数十億の完全インテリジェント監査

ブログ

ブログ

AI プロジェクトを開始する前に尋ねるべき 4 つの重要な質問

ブログ

人工知能とモノのインターネット: インターネット通信の未来

ブログ

機械学習は、足を上げることから敷居に落ちることまで行います

Python プログラミングにおける 3 つの一般的なデータ構造とアルゴリズム

今日の人工知能はすでに販売業界に混乱をもたらしている

2021年、人工知能は知的ではない

逆転！清華大学の卒業生の死はグーグルのレイオフとは無関係、家庭内暴力の詳細が明らかに、男性は殺人罪で起訴された

IoTセキュリティにおける人工知能の重要性

AI プロジェクトを開始する前に尋ねるべき 4 つの重要な質問

人工知能とモノのインターネット: インターネット通信の未来

推薦する

今週の Github の人気プロジェクトの概要: 自然言語処理 Python ライブラリ spaCy が最もホットです!

人工知能はターミネーターとなるのか？ぜひ見に来てください！

2018 年の人工知能の商業化に関する 5 つの洞察

AI による効率化: データセンターのエネルギー使用を再定義

サム・アルトマンは大胆な発言をした。「OpenAIにはGPT-5を訓練するのに十分な資金があり、人間はAGIの閾値に近づいている」

Facebookは、さまざまな機械学習の問題に適用できる、勾配フリー最適化のためのオープンソースツール「Nevergrad」をリリースしました。

Google、検索結果にAIベースの「要約」機能を追加

新世代のAIがディープラーニングの問題を解決する

デジタル変革時代の産業用ロボットの5つの大きなトレンド

時空間AI技術：スマートシティ分野における深層強化学習の応用入門

今後3年間で、人工知能は銀行と顧客とのコミュニケーションの主な手段となるだろう

AIベースでデータプラットフォームの実装を加速