民主化と自動化: 機械学習の参入障壁を下げる 6 つのツール

民主化と自動化: 機械学習の参入障壁を下げる 6 つのツール

かつて、機械学習という用語は科学的な光輪に包まれており、複雑なアルゴリズムにデータを「入力」して有用な分析結果を生成する方法を知っているのは、高給取りのデータ サイエンティストのほんの一握りだけでした。しかし現在では、自動化ツールの急速な発展により、データの収集、構造化、分析が容易になり、機械学習を利用するための敷居は大幅に下がりました。プログラミングを理解していないビジネス担当者でも、適切な質問をすることができれば、機械学習ツールを使用して目的の結果を得ることができます。

[[276055]]

機械学習の民主化が加速しています。その兆候の 1 つとして、最近 AutoML がホットワードになっていることが挙げられます。いわゆる AutoML は、機械学習アルゴリズムに自動化されたメタ レイヤーを追加します。これまで、機械学習アルゴリズムの複雑さは、多数のオプションとパラメータ設定を「微調整」する必要があることに起因しており、データ サイエンティストのエネルギーの 80 ~ 99% がこれに費やされていました。 AutoML は多数のパラメータを自動的にテストおよび調整できるため、アルゴリズムの使用のハードルが大幅に下がるだけでなく、アルゴリズムの調整プロセスも高速化されます。

AutoML は、クラウド内の十分なマシン コンピューティング パワーを利用して、並列で処理し、結果を返すことができるため、クラウド コンピューティングに最適です。同時に、AutoML は、機械学習の初心者が機械学習アプリケーションを段階的に独自に探索するのにも最適です。

機械学習を簡単にする6つのツール

次の 6 つの機械学習ツールは、プログラミングやデータ サイエンスの専門家にならなくても、数字、スプレッドシート、データを扱うすべての人に機械学習の世界への扉を開きます。

1. スプランク

Splunk は、Web アプリケーションによって作成された大量のログ ファイルを検索 (または「スヌーピング」) するための検索ツールとして始まりました。現在では、あらゆる形式のデータ、特に時系列やその他の順次生成されるデータを分析できるツールへと進化しています。 Splunk は、データ分析結果を複雑なビジュアルダッシュボードに表示できます。

最新の Splunk リリースには、TensorFlow などの機械学習ツールや優れた Python オープンソース ツールとデータ ソースを統合するためのアプリが含まれています。外れ値の検出、異常のラベル付け、将来の値の予測の生成のための高速なソリューションを提供します。これらは、非常に大規模なデータセットの干し草の山から針を見つけるために最適化されています。

2. データロボット

DataRobot 内のスタックは、R、Python、またはその他のプラットフォームで記述された優れたオープンソースの機械学習ライブラリのコレクションです。 DataRobot には、パイプラインを設定するためのフローチャートのようなツールを表示する Web インターフェースがあります。 DataRobot は、ローカル データベース、クラウド データ ストア、ダウンロードしたファイルやスプレッドシートなど、すべての主要なデータ ソースに接続します。構築するパイプラインは、データをクリーンアップし、欠損値を埋めてから、外れ値にフラグを立てて将来の値を予測するモデルを生成します。

DataRobot は、特定の予測が行われた理由について「人間にわかりやすい説明」を提供することも試みます。これは、AI の仕組みを理解するのに役立つ機能です。

クラウドとオンプレミスのソリューションのハイブリッド シナリオに展開できます。クラウド実装では共有リソースを通じて最大限の並列処理とスループットを実現できる一方、ローカルインストールではより高いプライバシーと制御が実現します。

3. 水

H2O は、さまざまな機械学習ソリューションを探索するために使用できる自動化スタックである「無人 AI」として自らを位置付けています。データ ソース (データベース、Hadoop、Spark など) を接続し、さまざまなパラメータを使用してさまざまなアルゴリズムに入力します。特定のタスクに割り当てられる時間とコンピューティング リソースの量を制御し、予算内でさまざまなパラメータの組み合わせをテストできます。ダッシュボードまたは Jupyter ノートブックを通じて結果を調査および監査することもできます。

H2O のコアとなる機械学習アルゴリズムと Spark などのツールとの統合はオープンソースですが、いわゆる「ドライバーレス」オプションは、技術サポートが提供されるエンタープライズ顧客に販売される独自のパッケージの 1 つです。

4. ラピッドマイナー

RapidMiner エコシステムの中核は、データ分析用の視覚的なアイコンに基づいたスタジオ ソフトウェアです。ユーザーはアイコンをドラッグ アンド ドロップするだけでパイプラインを生成し、データのクリーニングを行い、さまざまな統計アルゴリズムを実行することができます。従来のデータ サイエンスの代わりに機械学習を使用する場合、自動モデルはさまざまな分類アルゴリズムから選択し、最適なものが見つかるまでさまざまなパラメーターを検索します。このツールの目的は、何百ものモデルを生成し、その中から最適なモデルを決定することです。

モデルを作成した後、ツールはモデルを展開しながら成功率をテストし、モデルがどのように決定を下したかを説明します。ビジュアル ワークフロー エディターを使用して、さまざまなデータ フィールドに対する感度をテストおよび調整できます。

最近の機能強化には、テキスト分析の改善、ビジュアルダッシュボードを構築するためのさまざまなグラフ、時系列データを分析するためのより洗練されたアルゴリズムなどが含まれます。

5. ビッグML

BigML ダッシュボードは、より複雑な機械学習作業の基礎となるデータの相関関係を識別するためにデータ サイエンスで一般的に使用される基本ツールを提供します。たとえば、Deepnets は、より高度なニューラル ネットワークをテストおよび最適化するための高度なメカニズムを提供します。標準化された比較フレームワークを使用してモデルの品質を他のアルゴリズムと比較できるため、従来のデータ サイエンスとより洗練された機械学習のどちらかを選択できます。

BigML のダッシュボードはブラウザで実行され、その分析は BigML クラウドまたはサーバー ルームで実行できます。クラウド バージョンは早期テストを促進するために価格が低く設定されており、無料レベルもあります。コストは主にデータセットのサイズと、利用できるコンピューティング リソースの量によって決まります。無料利用枠では、最大 2 つのプロセスを並行して実行して、最大 16 MB のデータを分析します。小規模な有料アカウントは月額わずか 30 ドルと非常にリーズナブルですが、リソースのニーズが増加するとコストも増加します。

6. Rスタジオ

R は非プログラマーにとって使いやすいものではありませんが、ハードコアなデータ サイエンティストの間で非常に人気があるため、複雑な統計分析のための最も重要なツールの 1 つとなっています。 R Studio は、内部で実行されている R レイヤーとの対話を容易にするための一連のメニューとポイント アンド クリック オプションをユーザーに提供するツールです。

R Studio を使用すると、スプレッドシートを扱うことができる上級管理者は、最も単純なオプションを使用して基本的な分析や複雑な分析も実行できます。 R Studio の一部は一般ユーザーにとってまだわかりにくい部分もありますが、R Studio はオープンになり、時間を投資する意思のあるすべての人にとってアクセスしやすくなりつつあり、最先端のツールを試してみたい人にとっては試してみる価値があります。

<<:  今日のAIの優れた使用例

>>:  5G、人工知能、音声技術…2020年に注目すべき6つのテクノロジートレンド

ブログ    
ブログ    
ブログ    

推薦する

ハーバード大学とコロンビア大学が、AlphaFold 2 のプライベート トレーニング データの問題を解決するために 1,600 万個のタンパク質配列をオープンソース化しました。

タンパク質は生命の原動力であり、その配列と構造を理解することは、新しい酵素の設計や命を救う薬の開発な...

1000ステップ未満の微調整で、LLaMAコンテキストは32Kに拡張されました。これは、Tian Yuandongチームの最新の研究です。

誰もが独自の大規模モデルをアップグレードして反復し続けるにつれて、コンテキスト ウィンドウを処理する...

...

鍵となるのは人工知能コンピューティングセンターを構築し、それを活用することだ

デジタル経済の発展に伴い、全国の各省市がコンピューティングインフラの構築を競って推進し、人工知能コン...

...

生成型 AI がソフトウェア開発を変える 10 の方法

翻訳者 |陳俊レビュー | Chonglou 1990 年代にソフトウェア プログラミングについて話...

人工知能の分野では、すでに世界中で 10 個の画期的な技術が存在します。

[[238191]]人工知能はハイテクで、多岐にわたり、多次元的で、学際的な統合装置であり、ビッグ...

Googleの華博士がICCV2021で新モデルを発表、卵を泡立てるだけでパンケーキを作りたいかどうかがわかる

機械学習モデルが現実世界でますます使用され、導入されるようになると、AI の意思決定は人々の日常生活...

量子人工知能研究における課題と機会

量子コンピューティングと人工知能の融合により、大きな期待と可能性を秘めた研究の最前線である量子人工知...

ロビン・リー:百度はすでに独自のハイエンドチップを製造する能力がある

「中国の改革開放40年はIT産業の爆発的な成長をもたらしたが、ハイエンドチップは常に輸入に依存してき...

5Gのサポートにより、AIの顔を変えること以外に人工知能は何ができるのでしょうか?

近年、AIによる顔を変える技術がネットユーザーの間で大流行し、この人工知能の新興技術を一般人の生活に...

チンチラの死: 十分に訓練すれば小型モデルでも大型モデルを上回る性能を発揮できる

2022年3月、DeepMindの論文「計算最適化大規模言語モデルのトレーニング」では、構築されたC...

Pangu-Agentの5つのイノベーション

大規模言語モデル (LLM) の開発と応用により、人工知能の分野で LLM ベースの自律エージェント...

クラウドベースのAIモバイルアプリケーションは今後も成長し、改善され続けるだろう

近年、モバイルラーニングと人工知能は、人々が機械と連携する方法に大きな影響を与えており、個々の顧客に...