初心者のための機械学習ガイド

初心者のための機械学習ガイド

[[202148]]

レベル2初心者になる

仕事で機械学習の実際の応用に遭遇したのはこれが初めてでした。 Zooplus ストアでの不正行為を識別するためのアプリケーションを準備する予定です。数か月にわたって外部プロバイダー、コード内の追加の if ステートメント、緊急対応スクリプトなど、さまざまなソリューションを試した後、最終的に機械学習がこの作業に最適であると結論付けました。それ以来、私たちは周囲の人々に私たちの教育に投資し、機械学習の道を歩み続けるよう説得しようとしてきましたが、目立った成功はありませんでした。しかし、偶然にも、Amazon の機械学習機能を試すことから第一歩を踏み出したので、私は自分自身をレベル 2 の初心者だと考えています。この記事では、レベル 1 の初心者の皆さんに、最初のステップを踏み、機械学習がどのようなものかを実際に理解する方法を説明します。

機械学習とは何ですか?

インターネット上には、機械学習の定義がおそらく数百、いや数千はあるでしょう。しかし、私は初心者なので、何か簡単なもの、つまり絶対に確実なものが欲しいのです。一緒に解決しましょう。

この用語の「マシン」はおそらくコンピューターを指しています。コンピューターやドローンなどが思い浮かびますが、それらはコンピューターによって制御されていますよね?つまり、機械学習とは「コンピューター学習」のことです。

学習とは実際何を意味するのでしょうか? コンピュータには脳がありません! ニューロンは活性化されず、経路も作成されません。できるのは、いくつかのデータを保存し、いくつかの操作を実行することだけです。しかし、私たちはそれがデータ、しかもビッグデータに関するものであることを知っています(少なくとも DZone はそう言っています)。つまり、「ビッグデータのコンピュータ処理」です。

では、「処理」とはどういう意味でしょうか? レベル 2 の初心者として、大まかな説明はできます (ただし、実際の実践者にとっては、私の言うことはまったく適切ではないと思われるでしょう)。私が話しているのは、レベル 1 および 2 の初心者が知りたくない高度なアルゴリズムを使用した統計分析です。

これは、この記事における機械学習の最終的な定義、「ビッグデータに対して統計分析を実行するコンピューター」を形成するのに十分であると思います。かっこいいですよね?

機械学習は何に役立ちますか?

分かりました。分かりました。こんなにたくさん読んだ後でも、機械学習に関するこの知識が何に役立つのかまだわかりません。レベル 2 の初心者として、機械学習を学ぶ機会があったことを改めて述べます。

機械学習には、教師あり学習と教師なし学習の 2 種類があります。

教師あり学習

本当は、子どもを監督するという例え話をしたいのですが、できません。この名前を作ったのは誰ですか?

教師あり学習とは、コンピュータに、見つけてほしい情報を提供することです。私が詐欺の特定に取り組んだ例を覚えていますか? それが教師あり学習でした。 - 私はコンピューターにこう言います。「このクライアントが詐欺師かどうか知りたいのです。」そしてコンピューターは高度な魔法を駆使して答えます。「はい、マスター!」または「いいえ、マスター!」彼は愚か者ですが、普通の愚か者です。通常、教師あり学習は、いわゆる分類問題に使用されます。コンピューターに大量のデータを入力すると、コンピューターはそれを分類します。アメリカ人は再びトランプ氏に投票するだろうか?この人物はガンにかかっているだろうか?この長くて興味深い記事を読み続けるだろうか?

教師なし学習

教師なし学習とは、何を探しているのか分からず、見当もつかない状態で、コンピューターに「ここに大量のデータがあります。その中から何か興味深いものを見つけてください」と指示することです。代わりに、教師あり学習で使用されるアルゴリズムよりも高度なアルゴリズムを実装します。

私たちはまったく無知というわけではなく、必要なものは正確にわかっているので(そして、より複雑なアルゴリズムには興味がありません)、次のセクションでは教師あり機械学習に焦点を当てます。

Amazon ML の紹介

つい最近まで、あなたや私のような初心者にとって、機械学習を始めるのは非常に困難でした。これは、一日中数字で考え、Scala と Python が優れたプログラミング言語だと考えているオタク向けのゲームです。 Amazon のおかげで、営業担当者は独自のインフラストラクチャの販売を開始し、Amazon Machine Learning という優れたツールを提供してくれました。

データソースを作成する

600 語を超えるテキストがあるので、すぐに作業を開始したほうがよいでしょう。 Amazon ウェブコントロールパネルを開き、「機械学習」ボタンを見つけます。クリック!チュートリアルなどを表示する画面が表示されます。無視してください。すでに途中なのでチュートリアルは必要ありません。次のような画面が表示されます。

したがって、ビッグデータに対して計算統計分析を実行するための最初のステップは、真にビッグなデータを提供することになります。以下のリンクを使用してファイルをダウンロードし、S3 バケットに保存します。

https://s3.amazonaws.com/aml-sample-data/banking.csv

(はい、AWS ドキュメントのチュートリアルで提供されているデータを使用しています。ただ、このチュートリアルの方がはるかに優れています!)

完了したら、機械学習画面に戻り、「新規作成...」を選択してから「データソース」を選択します。次のような画面が表示されます。

S3 の場所を入力し、データソース名を選択します。名前は重要ではありません。 (最終的には削除する予定です) なので、任意の名前を付けることができます。完了したら、「確認」をクリックし、「続行」を選択します。

次のような画面が表示されます。

ご覧のとおり、Amazon はデータをさまざまなデータ タイプに分割することで、データをより合理的にしようとしています。これはチュートリアルデータなので、すべてがスムーズになるはずです。列名に関連する質問に対して「はい」をクリックするだけで、すべてがうまくいけば、最後のページの名前は「y」になり、タイプは「バイナリ」になります。その場合は、「続行」をクリックしてください。それ以外の場合はわかりません。私はレベル 2 の初心者です。

3 ページ目で、Amazon はついに、私たちが実際にどのような魔法のような結果を望んでいるのかを尋ねます。それが「ターゲット」です。次の画面で最後の列を選択します。

ご覧のとおり、Amazon はこれをバイナリ分類問題として識別しました。つまり、私たちが監督者になったということです。[続行] をクリックします。

データには識別子が含まれていないため、「レビュー」をクリックして「データソースの作成」を選択します。作成されるまでにはしばらく時間がかかります。完了すると、次のような画面が表示されます。

データ ソースの準備は完了です。これで、ビッグ データがシステム内に保存されました。

何千もの単語を書き上げたので、最も重要な部分の準備が整いました。実際の統計分析部分を作成していきます。 ML モデルは、当社の優れた機械学習ソリューションの頭脳です。これは、Amazon が当社のビッグデータと設定に基づいて作成した魔法の生き物であり、提供されたデータの列「y」の値を予測できます。さあ始めましょう!

機械学習パネルに戻り、もう一度「新規作成…」を選択してから、「ML モデル」を選択します。新しく作成したデータ ソースを選択します。次のようなものが表示されるはずです。

「続行」をクリックし、「確認」と「ML モデルの作成」を選択します。詳細設定は変更しません。覚えておいてください、私たちはまだレベル 1 と 2 の初心者です。すべてが正しく動作するかを確認したいだけです。

しばらくして、F5 キーを押して更新すると、成功インターフェイスが表示されます (以下を参照)。 ML モデルが正常に作成されました。

予測を作成する

何も予測せずにソリューションの魔法の頭脳を作成した場合、後悔することになります。 ML モデル成功画面の左側にある「リアルタイム予測を試す」を選択します。 「レコードを貼り付け」ボタンをクリックし、以下を貼り付けます。

32,サービス,離婚,基本.9年,いいえ,不明,はい,携帯電話,12月,月,110,1,11,0,存在しない,-1.8,94.465,-36.1,0.883,5228.1

この行はビッグデータ ファイルと同じ形式ですが、最後の列「y」がありません。これはまさに私たちの魔法の ML モデルが予測するものです。驚きを期待するなら、「予測を作成」をクリックしてください。

[[202152]]

はい、はい、はい!うまくいきました!予測できました!私が言ったことをすべて正しく実行すれば、画面の右側が次のようになると予測できます。

「予測ラベル」は予測された結果です。なんと 0 です! これで完了です!

クリーニング

ストレージ料金が発生しないように、必ず S3 バケットからデータを削除してください。アカウントから機械学習を削除することは可能ですが、費用はかかりませんので、ご自由に削除してください。

要約する

まず、機械学習の不十分な定義を示します。次に、教師あり機械学習と教師なし機械学習の違いを学びます。最後に、Amazon Machine Learning API を使用して簡単な予測を作成しました。ここで疑問に思うのは、何を予測したのか、どのようなデータをそこに入れたのか、うまくいかなかったらどうなるのか、ということでしょう。今のところ、それは問題ではありません。それは単なる例です。さて、レベル 2 の初心者にとって重要なのは、何を予測したいのかということです。どのようなデータを利用できますか。そして、それを実現するために何ができるでしょうか。以下にいくつかのリソースを提供します。レベル 3 への旅がうまくいくことを祈っています。

<<:  Quora は機械学習をどのように活用していますか?

>>:  人工知能の長所と短所について知っておくべき10の事実

ブログ    
ブログ    

推薦する

...

1つの記事で基本モデルの定義と動作原理を理解する

翻訳者 |ブガッティレビュー | Chonglou 1.基本モデルの定義ベースモデルは、大量のデータ...

...

...

機械学習の最大の欠点を解決する?マックス・プランク研究所とグーグルが因果学習を再び研究

野球選手がボールを打つ様子を見ると、さまざまな要素間の因果関係を推測することができます。たとえば、野...

2022年の自動運転のトップ10トレンドが発表されました。データインテリジェンスシステムは、自動運転の商用化のクローズドループの鍵となるでしょうか?

「2022年は自動運転産業の発展にとって最も重要な年となるだろう。乗用車の運転支援分野での競争は正...

ヘルスケア業界における人工知能と機械学習の応用

[[414016]]ヘルスケア業界における人工知能と機械学習の役割を理解するには、ヘルスケア業界にお...

ペイ・ジアンのチームの44ページの新作:ディープラーニングモデルの複雑さを理解するには、これを読んでください

最近、ディープラーニング モデルの複雑性に関する最初のレビュー「ディープラーニングのモデルの複雑性:...

人工知能の急速な発展により、小売業界は第5の変革期を迎えている。

[[252330]]人工知能の急速な発展は、新しい小売業者に力を与え、小売業界の「人、商品、場所」...

...

知識とスキルの限界を押し広げる 24 の機械学習プロジェクト

導入データサイエンス (機械学習) プログラムは、この分野でのキャリアをスタートさせる有望な方法を提...

現在人工知能が適している5つの分野

調査会社IDCが最近発表した「世界の人工知能支出ガイド」によると、世界の人工知能予算は今後4年間で倍...

初心者向けガイド: 機械学習とディープラーニング

ウェッジ:機械学習とディープラーニングは現在注目されており、突然多くの人がそれについて話していること...

RSA アルゴリズムが解読された場合、暗号化の将来はどうなるでしょうか?

インターネットのセキュリティ層に一夜にして巨大な亀裂が生じたらどうなるか考えたことがありますか? 亀...

インド初のAI教師アイリスが就任。3か国語を話し、個別指導を改善できる

3月8日、インド初のAI教師であるアイリス氏が就任した。彼女は、楽しみながら学ぶことで生徒の学習体験...