ローコード機械学習ツール

機械学習は、ビジネスや世界中のさまざまな問題の解決に役立つ可能性があります。通常、機械学習モデルを開発し、そのモデルを運用可能な状態に展開するには、プログラミングに関する深い理解とその背後にあるアルゴリズムに関する十分な理解が必要です。

[[346868]]

これにより、機械学習の使用が少人数のグループに限定され、解決できる問題の数も制限されます。

幸いなことに、ここ数年で、モデル開発に必要なコードの量を削減したり、場合によっては完全に排除したりするライブラリやツールが数多く登場しました。これにより、アナリストなどのデータサイエンティスト以外の人が機械学習のパワーを活用できるようになり、データサイエンティストはより迅速にモデルのプロトタイプを作成できるようになります。

ここでは、機械学習用の私のお気に入りのローコードツールをいくつか紹介します。

ピカレット

PyCaret は、Scikit-learn や XGBoost などの一般的な機械学習ライブラリ用の Python ラッパーです。わずか数行のコードでモデルを展開可能な状態に開発できます。

Pycaret は pip 経由でインストールできます。より詳細なインストール手順については、PyCaret のドキュメントを参照してください。

 pip インストール pycaret

PyCaret には、pycaret.datasets モジュールを使用して直接インストールできるパブリックデータセットのリポジトリがあります。完全なリストはここにありますが、このチュートリアルでは、「ワイン」データセットと呼ばれる分類タスクを解決するために非常に単純なデータセットを使用します。

PyCaret ライブラリには、次のような一般的な機械学習の問題をすべて解決するためのモジュールのセットが含まれています。

分類。
戻る。
クラスタリング。
自然言語処理。
関連ルールのマイニング。
異常検出。

分類モデルを作成するには、pycaret.classification モジュールを使用する必要があります。モデルの作成は非常に簡単です。モデル ID をパラメータとして受け取り、create_model() 関数を呼び出すだけです。サポートされているモデルとそれに対応する ID の完全なリストは、こちらで確認できます。または、適切なモジュールをインポートした後、次のコードを実行して、使用可能なモデルのリストを表示することもできます。

 pycaret.classification からインポート * 
 
モデル()

> 分類に使用できるモデルのスナップショット。画像は著者によるものです。

create_model() を呼び出す前に、まず setup() 関数を呼び出して、機械学習実験に適切なパラメータを指定する必要があります。ここでは、テストシーケンスの分割のサイズや、実験でクロス検証を実装するかどうかなどを指定できます。

 pycaret.classification からインポート *  
 rf =セットアップ(データデータ= データ、  
ターゲット= 'タイプ' 、  
トレインサイズ= 0.8 )  
 rf_model = create_model ('rf')

create_model() 関数は、データ型を自動的に推測し、デフォルトのメソッドを使用してそれらのデータ型を処理します。 create_model() を実行すると、推論されたデータ型を示す次の出力が表示されます。

> 画像は著者によるものです。

PyCaret は、カテゴリ変数や欠損値の補完などの処理に、デフォルトの前処理手法セットを使用します。ただし、データに対してよりカスタマイズされたソリューションが必要な場合は、モデル設定でパラメーターとして指定できます。以下の例では、numeric_imputation パラメータを変更して中央値を使用しました。

 pycaret.classification からインポート *
 rf =セットアップ(データデータ= データ、
ターゲット= 'タイプ' 、
 numeric_imputation = '中央値' )
 rf_model = create_model ('rf')

パラメータに満足したら、Enter キーを押すとモデルが完成し、パフォーマンス結果のグリッドが表示されます。

> 画像は著者によるものです。

PyCaret には、モデルのパフォーマンスをグラフィカルに表示する plot_model() 関数もあります。

プロットモデル(rf_model)

> 画像は著者によるものです。

このチュートリアルでは、PyCaret ライブラリを使用したモデルトレーニングの基本について説明しました。機能エンジニアリング、モデルチューニング、永続性、デプロイメントなど、完全なローコード機械学習ソリューションを提供する機能とモジュールは他にも多数あります。

BigQuery ML

2018 年に、Google は BigQuery ML という新しいツールをリリースしました。 BigQuery は、データアナリストやデータサイエンティストが大量のデータに高速にアクセスできるように設計された、Google のクラウドデータウェアハウスソリューションです。 BigQuery ML は、SQL のみを使用して BigQuery データウェアハウスから直接機械学習モデルを開発できるツールです。

BigQueryML はリリース以来、分類、回帰、クラスタリングなど、最も一般的な機械学習タスクをサポートするまで成長しました。独自の Tensforflow モデルをインポートしてツールで使用することもできます。

私の経験から言うと、BigQueryML はモデルのプロトタイピングを加速するのに非常に便利なツールであり、単純な問題を解決するための本番環境ベースのシステムとしても使用できます。

このツールを簡単に紹介するために、Adult Income Dataset というデータセットを使用して、BigQuery ML でロジスティック回帰分類モデルを構築および評価する方法を説明します。

データセットは UCI 機械学習リポジトリで入手でき、次の Python コードを使用して CSV ファイルとしてダウンロードします。

 url_data = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'   
 
 column_names = ['年齢', '職業', '職位', '教育', '教育番号', '婚姻状況', 
 
 「職業」、「関係」、「人種」、「性別」、「資本利得」、「資本損失」、 
 
 [「週あたりの労働時間」、「出身国」、「収入」] 
 
大人のデータ= pd .read_csv(url_data、名前=列名) 
 
成人データ.to_csv('成人データ.csv')

以下は、データをダウンロードして CSV ファイルとしてエクスポートするスクリプトです。

Google Cloud Platform (GCP) アカウントをお持ちでない場合は、ここで作成できます。最初にサインアップすると、以下の例を試すのに十分な 300 ドルの無料クレジットが付与されます。

GCP に入ったら、ドロップダウンメニューから BigQuery Web UI に移動します。 GCP を初めて使用する場合は、プロジェクトを作成し、BigQuery で設定する必要があります。ここでは、Google クイックスタートガイドに概要が詳しく記載されています。

先ほどダウンロードした CSV ファイルを GCP に直接アップロードしてテーブルを作成できます。

> 画像は著者によるものです。

サイドバーのテーブル名をクリックし、「プレビュー」を選択すると、テーブル内のデータを検査できます。現在、成人向けのデータは BigQuery にあります。

> 画像は著者によるものです。

このデータでモデルをトレーニングするには、テーブルからすべて (*) を選択し、ターゲット変数 (収入) の名前を label に変更し、ロジックを追加して「adults_log_reg」という名前のロジスティック回帰モデルを作成する SQL クエリを記述するだけです。

すべてのモデルオプションについては、こちらのドキュメントを参照してください。

モデル「mydata.adults_log_reg」を作成する
オプション(モデルタイプ= 'logistic_reg' ) AS
 *を選択、
 ad.income AS ラベル
から
`mydata.adults_data` 広告

データテーブルの横のサイドバーに表示されるモデルをクリックすると、トレーニングのパフォーマンスの評価を確認できます。

> 画像は著者によるものです。

これで、モデルを使用して ML.PREDICT 関数で予測を行うことができます。

ファスタイ

Tensorflow などの人気のディープラーニングフレームワークは学習曲線が急峻で、初心者やデータサイエンティスト以外の人が使いこなすのは難しいことがよく知られています。 fastai ライブラリは、わずか数行のコードでニューラルネットワークをトレーニングできる高レベル API を提供します。

Fastai は Pytorch と連携して動作するため、使用する前に両方のライブラリをインストールする必要があります。

 pip pytorch をインストールする
pip インストール fastai

fastai ライブラリには、テキストや画像などの構造化データと非構造化データの両方を処理するためのモジュールがあります。このチュートリアルでは、fastai.tabular.all モジュールを使用して、以前に使用したワインデータセットの分類タスクを解決します。

PyCaret と同様に、fastai は埋め込みレイヤーを通じて非数値データ型の前処理を実行します。データを準備するには、TabularDataLoaders ヘルパー関数を使用します。ここでは、データフレームの名前、列のデータ型、およびモデルで実行する前処理手順を指定します。

ニューラルネットワークをトレーニングするには、以下に示すように tabular_learner() 関数を使用するだけです。

 dl = TabularDataLoaders.from_df (データ、 y_names = "type" 、
 cat_names = ['品質'],
 cont_names = ['固定酸度', '揮発酸度',
 「クエン酸」、「残留糖分」、
 「塩化物」、「遊離二酸化硫黄」、
 「総二酸化硫黄」、「密度」、
 [[pH]、[硫酸塩]、[アルコール]]
 procs = [分類、不足部分を充填、正規化])