機械学習は、ビジネスや世界中のさまざまな問題の解決に役立つ可能性があります。通常、機械学習モデルを開発し、そのモデルを運用可能な状態に展開するには、プログラミングに関する深い理解とその背後にあるアルゴリズムに関する十分な理解が必要です。
これにより、機械学習の使用が少人数のグループに限定され、解決できる問題の数も制限されます。 幸いなことに、ここ数年で、モデル開発に必要なコードの量を削減したり、場合によっては完全に排除したりするライブラリやツールが数多く登場しました。 これにより、アナリストなどのデータ サイエンティスト以外の人が機械学習のパワーを活用できるようになり、データ サイエンティストはより迅速にモデルのプロトタイプを作成できるようになります。 ここでは、機械学習用の私のお気に入りのローコード ツールをいくつか紹介します。 ピカレット PyCaret は、Scikit-learn や XGBoost などの一般的な機械学習ライブラリ用の Python ラッパーです。 わずか数行のコードでモデルを展開可能な状態に開発できます。 Pycaret は pip 経由でインストールできます。 より詳細なインストール手順については、PyCaret のドキュメントを参照してください。
PyCaret には、pycaret.datasets モジュールを使用して直接インストールできるパブリック データセットのリポジトリがあります。 完全なリストはここにありますが、このチュートリアルでは、「ワイン」データセットと呼ばれる分類タスクを解決するために非常に単純なデータセットを使用します。 PyCaret ライブラリには、次のような一般的な機械学習の問題をすべて解決するためのモジュールのセットが含まれています。
分類モデルを作成するには、pycaret.classification モジュールを使用する必要があります。 モデルの作成は非常に簡単です。 モデル ID をパラメータとして受け取り、create_model() 関数を呼び出すだけです。 サポートされているモデルとそれに対応する ID の完全なリストは、こちらで確認できます。 または、適切なモジュールをインポートした後、次のコードを実行して、使用可能なモデルのリストを表示することもできます。
> 分類に使用できるモデルのスナップショット。画像は著者によるものです。 create_model() を呼び出す前に、まず setup() 関数を呼び出して、機械学習実験に適切なパラメータを指定する必要があります。 ここでは、テストシーケンスの分割のサイズや、実験でクロス検証を実装するかどうかなどを指定できます。
create_model() 関数は、データ型を自動的に推測し、デフォルトのメソッドを使用してそれらのデータ型を処理します。 create_model() を実行すると、推論されたデータ型を示す次の出力が表示されます。 > 画像は著者によるものです。 PyCaret は、カテゴリ変数や欠損値の補完などの処理に、デフォルトの前処理手法セットを使用します。 ただし、データに対してよりカスタマイズされたソリューションが必要な場合は、モデル設定でパラメーターとして指定できます。 以下の例では、numeric_imputation パラメータを変更して中央値を使用しました。
パラメータに満足したら、Enter キーを押すとモデルが完成し、パフォーマンス結果のグリッドが表示されます。 > 画像は著者によるものです。 PyCaret には、モデルのパフォーマンスをグラフィカルに表示する plot_model() 関数もあります。
> 画像は著者によるものです。 このチュートリアルでは、PyCaret ライブラリを使用したモデル トレーニングの基本について説明しました。 機能エンジニアリング、モデルチューニング、永続性、デプロイメントなど、完全なローコード機械学習ソリューションを提供する機能とモジュールは他にも多数あります。 BigQuery ML 2018 年に、Google は BigQuery ML という新しいツールをリリースしました。 BigQuery は、データ アナリストやデータ サイエンティストが大量のデータに高速にアクセスできるように設計された、Google のクラウド データ ウェアハウス ソリューションです。 BigQuery ML は、SQL のみを使用して BigQuery データ ウェアハウスから直接機械学習モデルを開発できるツールです。 BigQueryML はリリース以来、分類、回帰、クラスタリングなど、最も一般的な機械学習タスクをサポートするまで成長しました。 独自の Tensforflow モデルをインポートしてツールで使用することもできます。 私の経験から言うと、BigQueryML はモデルのプロトタイピングを加速するのに非常に便利なツールであり、単純な問題を解決するための本番環境ベースのシステムとしても使用できます。 このツールを簡単に紹介するために、Adult Income Dataset というデータセットを使用して、BigQuery ML でロジスティック回帰分類モデルを構築および評価する方法を説明します。 データセットは UCI 機械学習リポジトリで入手でき、次の Python コードを使用して CSV ファイルとしてダウンロードします。
以下は、データをダウンロードして CSV ファイルとしてエクスポートするスクリプトです。 Google Cloud Platform (GCP) アカウントをお持ちでない場合は、ここで作成できます。 最初にサインアップすると、以下の例を試すのに十分な 300 ドルの無料クレジットが付与されます。 GCP に入ったら、ドロップダウン メニューから BigQuery Web UI に移動します。 GCP を初めて使用する場合は、プロジェクトを作成し、BigQuery で設定する必要があります。ここでは、Google クイック スタート ガイドに概要が詳しく記載されています。 先ほどダウンロードした CSV ファイルを GCP に直接アップロードしてテーブルを作成できます。 > 画像は著者によるものです。 サイドバーのテーブル名をクリックし、「プレビュー」を選択すると、テーブル内のデータを検査できます。 現在、成人向けのデータは BigQuery にあります。 > 画像は著者によるものです。 このデータでモデルをトレーニングするには、テーブルからすべて (*) を選択し、ターゲット変数 (収入) の名前を label に変更し、ロジックを追加して「adults_log_reg」という名前のロジスティック回帰モデルを作成する SQL クエリを記述するだけです。 すべてのモデル オプションについては、こちらのドキュメントを参照してください。
データ テーブルの横のサイドバーに表示されるモデルをクリックすると、トレーニングのパフォーマンスの評価を確認できます。 > 画像は著者によるものです。 これで、モデルを使用して ML.PREDICT 関数で予測を行うことができます。 ファスタイ Tensorflow などの人気のディープラーニング フレームワークは学習曲線が急峻で、初心者やデータ サイエンティスト以外の人が使いこなすのは難しいことがよく知られています。 fastai ライブラリは、わずか数行のコードでニューラル ネットワークをトレーニングできる高レベル API を提供します。 Fastai は Pytorch と連携して動作するため、使用する前に両方のライブラリをインストールする必要があります。
fastai ライブラリには、テキストや画像などの構造化データと非構造化データの両方を処理するためのモジュールがあります。 このチュートリアルでは、fastai.tabular.all モジュールを使用して、以前に使用したワイン データセットの分類タスクを解決します。 PyCaret と同様に、fastai は埋め込みレイヤーを通じて非数値データ型の前処理を実行します。 データを準備するには、TabularDataLoaders ヘルパー関数を使用します。 ここでは、データ フレームの名前、列のデータ型、およびモデルで実行する前処理手順を指定します。 ニューラル ネットワークをトレーニングするには、以下に示すように tabular_learner() 関数を使用するだけです。
このコードを実行すると、パフォーマンス メトリックが表示されます。 > 画像は著者によるものです。 モデルを使用して予測を行うには、learning.predict(df.iloc[0]) を使用するだけです。 |
<<: 時代を先取り: パーソナライズされたマーケティング: 人工知能がカスタマー サービス業界にもたらす変化
>>: Pythonで完全な異常検出アルゴリズムをゼロから実装する
画像スタイルの転送?声の感情移入?いいえ、それはイメージの感情的な伝達です。コンピュータビジョンの分...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[213371]]はじめに:90年代生まれの少女が突然現れ、水滴カメラ生放送プラットフォームを批...
少し前、ニューヨーク・タイムズ紙は、OpenAI が自社のコンテンツを人工知能開発のために違法に使用...
企業が社内でソリューションを構築する必要は必ずしもありませんが、これが失敗の一般的な原因となります。...
近年、医療診断における AI の応用がますます注目されており、薬物スクリーニングや AI 診断など、...
[51CTO.com クイック翻訳] 現在、機械学習は主要なソフトウェアエンジニアリング分野における...
[[386531]]誰もそこに頭を突っ込みたくないよ!ザッカーバーグ氏は脳コンピューターインターフェ...
ロイター通信は6月19日、事情に詳しい4人の関係者の話として、グーグルの親会社アルファベットはチャッ...
人工知能 (AI) は間違いなく 2010 年代のテクノロジーのテーマであり、新しい 10 年が始ま...
COVID-19の影響により、今年の新学期は例年とは少し様子が異なります。多くの学校や企業がハイブリ...
「トランスフォーマーの挑戦者」MambaがMacBookで実行できるようになりました!誰かが Git...
[[419332]]導入プログラマーとして、上位 10 のソート アルゴリズムは必須であり、すべて...