ドラッグアンドドロップ機械学習の愛と憎しみ

ドラッグアンドドロップ機械学習は、私が長い間考えてきたものです。

1. 過去世と現在世

ドラッグアンドドロップ機械学習とは、インターフェイス上でドラッグすることで機械学習プロセスを構築することです。ドラッグアンドドロップ機械学習システムには、通常、データのクリーニング、機能の選択、トレーニング、予測、効果の評価など、豊富なコンポーネントが備わっています。「ビルディングブロック」に似た方法で、学習コンポーネントを組み合わせて完全な機械学習プロセスを構築します。

ドラッグアンドドロップ機械学習のプロトタイプはかなり前に登場しました。 Weka は、ニュージーランドのワイカト大学が開発したデータマイニングソフトウェアです。 Weka は、Java API の提供に加えて、Weka Explorer グラフィカルインターフェイスも提供します。 Weka Explorer インターフェース上でマウスを使用することで、データを簡単に読み込み、データの特性を観察し、トレーニング、予測、結果を評価できます。無料の Weka ソフトウェアに加えて、商用ソフトウェアの Matlab と SASS もグラフィカルインターフェイスを提供します。個人的には、これらのソフトウェアはツールキットやシステムではなく、ソフトウェアとして位置付けられていると感じています。しかし、これらのソフトウェアは、実際にはグラフィカルインターフェースを備えた最初の機械学習システムでした。

近年、機械学習が人気のテーマとなってきたため、「誰もが機械学習を使えるようになる」というのが多くの人のビジョンとなっています。彼らの想像では、データの準備、さまざまなアルゴリズムのトレーニング、さまざまなアルゴリズムの予測、効果の評価はすべてコンポーネントにカプセル化されており、コンポーネントをクリックしてドラッグするだけで、機械学習をスムーズに使用できます。この概念に基づいて、ドラッグアンドドロップ型の機械学習システムが数多く開発されてきました。中でも有名なものとしては、Microsoft の Azure Machine Learning Studio や Alibaba のビッグデータコンピューティングサービス MaxComput などがあります。

大企業に加え、ドラッグアンドドロップ機械学習システムを開発しているスタートアップ企業もあります。下の写真は、aetros が theano をベースに構築したディープラーニングプラットフォームです。ユーザーは、ドラッグアンドドロップするだけで、ConvNet と fcNet を含む基本アーキテクチャを完成させることができます。

2. 愛

ドラッグアンドドロップ機械学習により、プログラミングからコンポーネントのドラッグ、構成ファイルの記述まで、機械学習を使用するハードルが下がります。機械学習の利用の難しさが質的に軽減されました。しかし、私はこの利点を常に疑っていました。金融会社、貿易会社、銀行、さらにはインターネット企業において、非技術者が機械学習を使用する必要性と知識を本当に持っているでしょうか? 私はそうは思いません。

ドラッグアンドドロップ機械学習は、「誰もが機械学習を利用できる」という本来の目的を達成することはできませんが、エンジニアが機械学習タスクを実行するのを大幅に容易にすることができます。インターフェイス上でファンドの機械学習タスクを整理するエンジニアは、自分の機械学習タスクを直感的に理解できます。つまり、自分の機械学習タスクがどのステップに到達したか、エラーがある場合はどのステップでエラーが発生したか、誤ったステップによってどのタスクが影響を受けるかを把握できます。

例えば、上の図から、正規化がうまくいかないと、分割タスクやそれ以降のタスクに影響が出ることが直感的にわかります。

3. 憎悪

ドラッグアンドドロップ機械学習の利点について説明したので、ドラッグアンドドロップ機械学習の欠点について説明しましょう。

ドラッグアンドドロップ機械学習では、コンポーネントと構成がプログラミングに取って代わり、人々が機械学習を使用する方法になります。ただし、コンポーネントと構成だけでは、プログラミングのように機械学習の複雑さを完全に処理することはできません。機械学習アルゴリズムの理解に加えて、機械学習を使用する上で最も複雑な部分は、機能の調整とパラメータの調整という 2 つの部分です。特徴調整の内容には、どの特徴を使用するか、どの特徴を破棄するか、どの特徴前処理方法を採用するか (スケーリングなど) が含まれます。パラメータ調整は特定のアルゴリズムに関連しています。たとえば、ロジスティック回帰には主に学習率と正則化係数の 2 つのパラメータがあります。

コンポーネントプラス構成方法では、特徴エンジニアリングソリューションのセットとパラメーターのセットを構成できますが、どの特徴エンジニアリングソリューションとパラメーターのセットが最良の効果をもたらすかを迅速に検証することは困難です。プログラミングでは、ループを使用してさまざまな特徴エンジニアリングスキームとパラメーターを走査し、対応する効果インジケーターを取得できます。ただし、ドラッグアンドドロップマシンラーニングのコンポーネントプラス構成アプローチでは、さまざまな特徴エンジニアリングスキームとパラメーターをドキュメントに記録し、そのうちの 1 つを選択してドラッグアンドドロップマシンラーニングシステムに設定し、数時間実行して評価指標を取得し、評価指標をドキュメントに記録し、次のグループを選択して、すべての特徴エンジニアリングスキームとパラメーターがトラバースされるまで上記の手順を繰り返すことしかできません。プログラマーとしての私たちの目標は、さまざまなタスクをコードでつなぎ合わせて自動化を実現することです。しかし、現在ではドラッグアンドドロップの機械学習によって、この自動化チェーンは完全に切断されてしまいました。

では、コンポーネントと構成を直接使用して自動化を実現するにはどうすればよいでしょうか。これを実現するには、ドラッグアンドドロップ機械学習で条件判断コンポーネントとループコンポーネントを提供する必要があり、さらに一連の特徴エンジニアリングソリューションとパラメーター変更標準を定義する必要があります。それは新しいプログラミング言語を作成するようなものです。これで、最初に戻ります。

4. 結論

ドラッグアンドドロップ機械学習の本来の意図である「誰でも機械学習を利用できる」ということについては、私は楽観的ではありません。エンジニアにとって、ドラッグアンドドロップによる機械学習も、好き嫌いが分かれる関係です。

<<: 科学者らが磁場を使ってバイオニックロボットの動きを制御する新たな解決策を発表

>>: 機械学習業界の発展はなぜ「オープンソース」から切り離せないのか

ChatGPTがついにオンラインになり、回答のソースを提供できるようになりました

ドラッグアンドドロップ機械学習の愛と憎しみ

ChatGPTがついにオンラインになり、回答のソースを提供できるようになりました

新しいAGVロボットナビゲーション技術！屋内ナビゲーション用の新しいロボットフレームワークが登場しました。

マイクロソフト、AIアシスタントCopilotを搭載したWindows 11のメジャーアップデートをリリース

AIを拡張するための3つの成功要因

フォーブスの分析：深刻な問題により自動運転技術は「寒い冬」を迎える可能性がある

音声認識、マッチングアルゴリズム、モデルに関する簡単な説明

思考連鎖CoTは思考マップGoTへと進化し、思考ツリーよりも優れたヒントエンジニアリング技術が誕生した

Google は、Bard が無料の RAW 写真と無制限の補充を提供することを公式に発表し、ネットユーザーたちは大喜びしています。トップモデルのメレーを実際に試す

記憶は人工知能開発の重要な側面を示している

推薦する

UiPath Carnivalは職場の自動化におけるイノベーションを探るために近日開催されます

EasyDLは、臨床試験データの敵対的学習と複数のアルゴリズムの比較を簡単に処理します。

製造業における自動化の長所と短所を探る

80億人民元を超える資金で医療AIは「V字カーブ」を描いている

ChatGPTスーパープラグインをテスト済み: 経験ゼロでも5分でゲームを開発

AI はプラットフォームエンジニアリングと DevEx をどのように強化するのでしょうか?

インテリジェント衛生の開発が加速しており、衛生ロボットは応用の「先駆者」となっている。

現代のストレージシステムの背後にある古典的なアルゴリズムを解釈する

毎秒240万ゲームフレームを処理し、AIトレーニングコストを80％削減、GoogleがRL並列コンピューティングフレームワークをオープンソース化

2023 年の人工知能エンジニアリングの 5 つの新しい方向性