機械学習は、ビジネスや世界中のさまざまな問題の解決に役立つ可能性があります。通常、機械学習モデルを開発し、そのモデルを運用可能な状態に展開するには、プログラミングに関する深い理解とその背後にあるアルゴリズムに関する十分な理解が必要です。
これにより、機械学習の使用が少人数のグループに限定され、解決できる問題の数も制限されます。 幸いなことに、ここ数年で、モデル開発に必要なコードの量を削減したり、場合によっては完全に排除したりするライブラリやツールが数多く登場しました。 これにより、アナリストなどのデータ サイエンティスト以外の人が機械学習のパワーを活用できるようになり、データ サイエンティストはより迅速にモデルのプロトタイプを作成できるようになります。 ここでは、機械学習用の私のお気に入りのローコード ツールをいくつか紹介します。 ピカレット PyCaret は、Scikit-learn や XGBoost などの一般的な機械学習ライブラリ用の Python ラッパーです。 わずか数行のコードでモデルを展開可能な状態に開発できます。 Pycaret は pip 経由でインストールできます。 より詳細なインストール手順については、PyCaret のドキュメントを参照してください。
PyCaret には、pycaret.datasets モジュールを使用して直接インストールできるパブリック データセットのリポジトリがあります。 完全なリストはここにありますが、このチュートリアルでは、「ワイン」データセットと呼ばれる分類タスクを解決するために非常に単純なデータセットを使用します。 PyCaret ライブラリには、次のような一般的な機械学習の問題をすべて解決するためのモジュールのセットが含まれています。
分類モデルを作成するには、pycaret.classification モジュールを使用する必要があります。 モデルの作成は非常に簡単です。 モデル ID をパラメータとして受け取り、create_model() 関数を呼び出すだけです。 サポートされているモデルとそれに対応する ID の完全なリストは、こちらで確認できます。 または、適切なモジュールをインポートした後、次のコードを実行して、使用可能なモデルのリストを表示することもできます。
> 分類に使用できるモデルのスナップショット。画像は著者によるものです。 create_model() を呼び出す前に、まず setup() 関数を呼び出して、機械学習実験に適切なパラメータを指定する必要があります。 ここでは、テストシーケンスの分割のサイズや、実験でクロス検証を実装するかどうかなどを指定できます。
create_model() 関数は、データ型を自動的に推測し、デフォルトのメソッドを使用してそれらのデータ型を処理します。 create_model() を実行すると、推論されたデータ型を示す次の出力が表示されます。 > 画像は著者によるものです。 PyCaret は、カテゴリ変数や欠損値の補完などの処理に、デフォルトの前処理手法セットを使用します。 ただし、データに対してよりカスタマイズされたソリューションが必要な場合は、モデル設定でパラメーターとして指定できます。 以下の例では、numeric_imputation パラメータを変更して中央値を使用しました。
パラメータに満足したら、Enter キーを押すとモデルが完成し、パフォーマンス結果のグリッドが表示されます。 > 画像は著者によるものです。 PyCaret には、モデルのパフォーマンスをグラフィカルに表示する plot_model() 関数もあります。
> 画像は著者によるものです。 このチュートリアルでは、PyCaret ライブラリを使用したモデル トレーニングの基本について説明しました。 機能エンジニアリング、モデルチューニング、永続性、デプロイメントなど、完全なローコード機械学習ソリューションを提供する機能とモジュールは他にも多数あります。 BigQuery ML 2018 年に、Google は BigQuery ML という新しいツールをリリースしました。 BigQuery は、データ アナリストやデータ サイエンティストが大量のデータに高速にアクセスできるように設計された、Google のクラウド データ ウェアハウス ソリューションです。 BigQuery ML は、SQL のみを使用して BigQuery データ ウェアハウスから直接機械学習モデルを開発できるツールです。 BigQueryML はリリース以来、分類、回帰、クラスタリングなど、最も一般的な機械学習タスクをサポートするまで成長しました。 独自の Tensforflow モデルをインポートしてツールで使用することもできます。 私の経験から言うと、BigQueryML はモデルのプロトタイピングを加速するのに非常に便利なツールであり、単純な問題を解決するための本番環境ベースのシステムとしても使用できます。 このツールを簡単に紹介するために、Adult Income Dataset というデータセットを使用して、BigQuery ML でロジスティック回帰分類モデルを構築および評価する方法を説明します。 データセットは UCI 機械学習リポジトリで入手でき、次の Python コードを使用して CSV ファイルとしてダウンロードします。
以下は、データをダウンロードして CSV ファイルとしてエクスポートするスクリプトです。 Google Cloud Platform (GCP) アカウントをお持ちでない場合は、ここで作成できます。 最初にサインアップすると、以下の例を試すのに十分な 300 ドルの無料クレジットが付与されます。 GCP に入ったら、ドロップダウン メニューから BigQuery Web UI に移動します。 GCP を初めて使用する場合は、プロジェクトを作成し、BigQuery で設定する必要があります。ここでは、Google クイック スタート ガイドに概要が詳しく記載されています。 先ほどダウンロードした CSV ファイルを GCP に直接アップロードしてテーブルを作成できます。 > 画像は著者によるものです。 サイドバーのテーブル名をクリックし、「プレビュー」を選択すると、テーブル内のデータを検査できます。 現在、成人向けのデータは BigQuery にあります。 > 画像は著者によるものです。 このデータでモデルをトレーニングするには、テーブルからすべて (*) を選択し、ターゲット変数 (収入) の名前を label に変更し、ロジックを追加して「adults_log_reg」という名前のロジスティック回帰モデルを作成する SQL クエリを記述するだけです。 すべてのモデル オプションについては、こちらのドキュメントを参照してください。
データ テーブルの横のサイドバーに表示されるモデルをクリックすると、トレーニングのパフォーマンスの評価を確認できます。 > 画像は著者によるものです。 これで、モデルを使用して ML.PREDICT 関数で予測を行うことができます。 ファスタイ Tensorflow などの人気のディープラーニング フレームワークは学習曲線が急峻で、初心者やデータ サイエンティスト以外の人が使いこなすのは難しいことがよく知られています。 fastai ライブラリは、わずか数行のコードでニューラル ネットワークをトレーニングできる高レベル API を提供します。 Fastai は Pytorch と連携して動作するため、使用する前に両方のライブラリをインストールする必要があります。
fastai ライブラリには、テキストや画像などの構造化データと非構造化データの両方を処理するためのモジュールがあります。 このチュートリアルでは、fastai.tabular.all モジュールを使用して、以前に使用したワイン データセットの分類タスクを解決します。 PyCaret と同様に、fastai は埋め込みレイヤーを通じて非数値データ型の前処理を実行します。 データを準備するには、TabularDataLoaders ヘルパー関数を使用します。 ここでは、データ フレームの名前、列のデータ型、およびモデルで実行する前処理手順を指定します。 ニューラル ネットワークをトレーニングするには、以下に示すように tabular_learner() 関数を使用するだけです。
このコードを実行すると、パフォーマンス メトリックが表示されます。 > 画像は著者によるものです。 モデルを使用して予測を行うには、learning.predict(df.iloc[0]) を使用するだけです。 |
<<: 時代を先取り: パーソナライズされたマーケティング: 人工知能がカスタマー サービス業界にもたらす変化
>>: Pythonで完全な異常検出アルゴリズムをゼロから実装する
[[407129]] 2年前、NVIDIAは、大雑把な落書きをリアルタイムでフォトリアリスティックな...
既存のデータの 90% は過去 2 年間に生成されたものです。 毎日 7.5 京バイトのデータが生成...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
海外メディアVentureBeatによると、中国は人工知能の研究論文の総数で米国を上回り、資金提供を...
ボストン コンサルティング グループ (BCG) によると、米国と日本のサイバーセキュリティ専門家の...
現在、新型コロナウイルスの核酸検査のほとんどは、咽頭ぬぐい液を使って行われている。スマートウォッチを...
MNIST 認識の精度は 100% に達しましたか?最近、プレプリントプラットフォームarXivに掲...
この記事では、最近 FloydHub ブログで Cathal Horan が紹介した自然言語処理のト...
ドローンは長い間、高価な軍事用途に関連付けられてきましたが、現在では商業分野でも使用されることが増え...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
編纂者:ユン・ジャオ、ワン・ルイピン、ノア「家族の写真がついに出てきました…」最近、ミャオヤカメラの...
[[432741]]小学生の頃、「暗算日常練習」の文章題に戸惑ったトラウマをまだ覚えていますか?ぜひ...