ドラッグアンドドロップ機械学習の愛と憎しみ

ドラッグアンドドロップ機械学習の愛と憎しみ

ドラッグアンドドロップ機械学習は、私が長い間考えてきたものです。

1. 過去世と現在世

ドラッグ アンド ドロップ 機械学習とは、インターフェイス上でドラッグすることで機械学習プロセスを構築することです。ドラッグ アンド ドロップ 機械学習システムには、通常、データのクリーニング、機能の選択、トレーニング、予測、効果の評価など、豊富なコンポーネントが備わっています。 「ビルディングブロック」に似た方法で、学習コンポーネントを組み合わせて完全な機械学習プロセスを構築します。

ドラッグアンドドロップ機械学習のプロトタイプはかなり前に登場しました。 Weka は、ニュージーランドのワイカト大学が開発したデータマイニング ソフトウェアです。 Weka は、Java API の提供に加えて、Weka Explorer グラフィカル インターフェイスも提供します。 Weka Explorer インターフェース上でマウスを使用することで、データを簡単に読み込み、データの特性を観察し、トレーニング、予測、結果を評価できます。無料の Weka ソフトウェアに加えて、商用ソフトウェアの Matlab と SASS もグラフィカル インターフェイスを提供します。個人的には、これらのソフトウェアはツールキットやシステムではなく、ソフトウェアとして位置付けられていると感じています。しかし、これらのソフトウェアは、実際にはグラフィカル インターフェースを備えた最初の機械学習システムでした。

近年、機械学習が人気のテーマとなってきたため、「誰もが機械学習を使えるようになる」というのが多くの人のビジョンとなっています。彼らの想像では、データの準備、さまざまなアルゴリズムのトレーニング、さまざまなアルゴリズムの予測、効果の評価はすべてコンポーネントにカプセル化されており、コンポーネントをクリックしてドラッグするだけで、機械学習をスムーズに使用できます。この概念に基づいて、ドラッグ アンド ドロップ型の機械学習システムが数多く開発されてきました。中でも有名なものとしては、Microsoft の Azure Machine Learning Studio や Alibaba のビッグデータ コンピューティング サービス MaxComput などがあります。

大企業に加え、ドラッグアンドドロップ機械学習システムを開発しているスタートアップ企業もあります。下の写真は、aetros が theano をベースに構築したディープラーニング プラットフォームです。ユーザーは、ドラッグ アンド ドロップするだけで、ConvNet と fcNet を含む基本アーキテクチャを完成させることができます。

2. 愛

ドラッグ アンド ドロップ 機械学習により、プログラミングからコンポーネントのドラッグ、構成ファイルの記述まで、機械学習を使用するハードルが下がります。機械学習の利用の難しさが質的に軽減されました。しかし、私はこの利点を常に疑っていました。金融会社、貿易会社、銀行、さらにはインターネット企業において、非技術者が機械学習を使用する必要性と知識を本当に持っているでしょうか? 私はそうは思いません。

ドラッグアンドドロップ機械学習は、「誰もが機械学習を利用できる」という本来の目的を達成することはできませんが、エンジニアが機械学習タスクを実行するのを大幅に容易にすることができます。インターフェイス上でファンドの機械学習タスクを整理するエンジニアは、自分の機械学習タスクを直感的に理解できます。つまり、自分の機械学習タスクがどのステップに到達したか、エラーがある場合はどのステップでエラーが発生したか、誤ったステップによってどのタスクが影響を受けるかを把握できます。

例えば、上の図から、正規化がうまくいかないと、分割タスクやそれ以降のタスクに影響が出ることが直感的にわかります。

3. 憎悪

ドラッグ アンド ドロップ 機械学習の利点について説明したので、ドラッグ アンド ドロップ 機械学習の欠点について説明しましょう。

ドラッグ アンド ドロップ 機械学習では、コンポーネントと構成がプログラミングに取って代わり、人々が機械学習を使用する方法になります。ただし、コンポーネントと構成だけでは、プログラミングのように機械学習の複雑さを完全に処理することはできません。機械学習アルゴリズムの理解に加えて、機械学習を使用する上で最も複雑な部分は、機能の調整とパラメータの調整という 2 つの部分です。特徴調整の内容には、どの特徴を使用するか、どの特徴を破棄するか、どの特徴前処理方法を採用するか (スケーリングなど) が含まれます。パラメータ調整は特定のアルゴリズムに関連しています。たとえば、ロジスティック回帰には主に学習率と正則化係数の 2 つのパラメータがあります。

コンポーネントプラス構成方法では、特徴エンジニアリング ソリューションのセットとパラメーターのセットを構成できますが、どの特徴エンジニアリング ソリューションとパラメーターのセットが最良の効果をもたらすかを迅速に検証することは困難です。プログラミングでは、ループを使用してさまざまな特徴エンジニアリング スキームとパラメーターを走査し、対応する効果インジケーターを取得できます。ただし、ドラッグ アンド ドロップ マシン ラーニングのコンポーネント プラス構成アプローチでは、さまざまな特徴エンジニアリング スキームとパラメーターをドキュメントに記録し、そのうちの 1 つを選択してドラッグ アンド ドロップ マシン ラーニング システムに設定し、数時間実行して評価指標を取得し、評価指標をドキュメントに記録し、次のグループを選択して、すべての特徴エンジニアリング スキームとパラメーターがトラバースされるまで上記の手順を繰り返すことしかできません。プログラマーとしての私たちの目標は、さまざまなタスクをコードでつなぎ合わせて自動化を実現することです。しかし、現在ではドラッグ アンド ドロップの機械学習によって、この自動化チェーンは完全に切断されてしまいました。

では、コンポーネントと構成を直接使用して自動化を実現するにはどうすればよいでしょうか。これを実現するには、ドラッグ アンド ドロップ 機械学習で条件判断コンポーネントとループ コンポーネントを提供する必要があり、さらに一連の特徴エンジニアリング ソリューションとパラメーター変更標準を定義する必要があります。それは新しいプログラミング言語を作成するようなものです。これで、最初に戻ります。

4. 結論

ドラッグ アンド ドロップ 機械学習の本来の意図である「誰でも機械学習を利用できる」ということについては、私は楽観的ではありません。エンジニアにとって、ドラッグ アンド ドロップによる機械学習も、好き嫌いが分かれる関係です。

<<:  科学者らが磁場を使ってバイオニックロボットの動きを制御する新たな解決策を発表

>>:  機械学習業界の発展はなぜ「オープンソース」から切り離せないのか

ブログ    

推薦する

UiPath Carnivalは職場の自動化におけるイノベーションを探るために近日開催されます

ロボティック・プロセス・オートメーション(RPA)エンタープライズソフトウェア企業のUiPathは最...

...

EasyDLは、臨床試験データの敵対的学習と複数のアルゴリズムの比較を簡単に処理します。

[51CTO.com からのオリジナル記事] 画像学習は高度なアルゴリズムであり、画像への高い適応...

製造業における自動化の長所と短所を探る

自動化の統合は、進化する製造業界において決定的な力となり、従来のパラダイムを再構築し、前例のない進歩...

80億人民元を超える資金で医療AIは「V字カーブ」を描いている

[[373863]] 「人工知能は将来の生産性の中核である」という見解に疑問を抱く人はほとんどいませ...

...

...

ChatGPTスーパープラグインをテスト済み: 経験ゼロでも5分でゲームを開発

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI はプラットフォーム エンジニアリングと DevEx をどのように強化するのでしょうか?

ヘザー・ジョスリン編纂者:Xing Xuan DevOps を導入している多くの企業にとって、開発者...

インテリジェント衛生の開発が加速しており、衛生ロボットは応用の「先駆者」となっている。

環境保護の重要な部分として、都市環境衛生はますます重視されています。衛生産業をうまく発展させ、衛生業...

...

現代のストレージシステムの背後にある古典的なアルゴリズムを解釈する

アプリケーションによって処理されるデータの量は増加し続けています。データの増加は、ストレージ機能の拡...

...

2023 年の人工知能エンジニアリングの 5 つの新しい方向性

LLMの大幅な増加に加え、AI開発ツールも拡大しています。今年の AI 開発における 5 つの主要な...