機械学習の導入を容易にする 6 つのツール

機械学習の導入を容易にする 6 つのツール

「機械学習」という言葉には魔法のような雰囲気があります。機械学習は一般に一般の人々に受け入れられているわけではなく、データ サイエンティストは研究部門や研究室でデータを「金」に変える高度に専門化された錬金術師ですが、機械学習が科学であると単純に述べるだけでは、それ以上の説明にはなりません。

確かに、あまり知られていない事実かもしれませんが、機械学習ツールは長年にわたり進歩し、ほとんど誰でもボタンを押すだけで機械学習を利用して価値のあることを実行できるようになりました。これは簡単な作業ではありませんが、データを集約して実用的な洞察に変える作業は自動化されており、やる気があれば多くの組織で実行できます。

[[277527]]

このゆっくりとした復活は、ビジネス界の多くの非プログラマーがすでにかなりデータに精通しているという現実によって推進されています。数字が詰め込まれたスプレッドシートは、あらゆるレベルのビジネス意思決定者の共通言語であり、機械学習アルゴリズムはスプレッドシート内の明確に定義されたデータの行と列を好みます。機械学習の新しいツールは、本質的には、表形式のデータを有用な回答に変換するための戦略とオプションの単なる別のセットです。これらのツールの強みは、データの収集、構造の追加、一貫性の維持を処理し、その後、大量の計算作業を開始できることです。データ収集プロセスが簡素化され、情報を行と列に保持しやすくなります。

ツールは、ユーザーに代わってこれらすべての学習を実行できるほどスマートではありません。ユーザーは適切な質問をして、適切な場所を見つける必要があります。しかし、これらのツールにより答えの検索が高速化されるため、より広い範囲をカバーでき、より多くの検索が実行されるようになります。

AutoML: 機械学習の民主化

最近、「AutoML」という新しい流行語が登場し始めており、機械学習アルゴリズムには自動化のメタレイヤーが追加されていることを示しています。標準的なアルゴリズムは常に独自にパターンとルールを見つけるように設計されていますが、従来のアルゴリズムには多くのオプションとパラメーターが付属しています。データ サイエンティストは、多くの場合、最も予測力の高いルールを見つけることに時間の 80% ~ 99% を費やします。

AutoML は、さまざまなオプションを試し、テストし、さらにいくつかのオプションを試すことで、この段階を自動化します。機械学習アルゴリズムを 1 回実行するのではなく、N 回実行し、調整を加えて、再度 N 回実行し、これをユーザーの予算、時間、忍耐力が尽きるまで繰り返します。

AutoML ツールはクラウド コンピューティングに適しており、並列実行に十分な数のマシンを起動し、終了したらプールに戻すことができます。ユーザーは、コンピューティングのピーク時にのみ料金を支払います。

一般的に、AutoML アルゴリズムは、自分で機械学習を探索し始める人にとって良い選択肢です。自動化により、パラメータとオプションの設定という基本的な作業の一部が処理され、その結果がユーザーに代わってテストされるため、作業が簡素化されます。ユーザーがより洗練され、結果を理解し始めると、ユーザーはより多くのタスクを引き受け、自分で値を設定できるようになります。

最新のシステムにより、ユーザーは機械がどのように学習するかを理解しやすくなります。従来のプログラミングがルールとデータを答えに変換するのに対し、機械学習アルゴリズムは逆に、答えとデータをルールに変換します。これらのルールにより、ビジネスで何が起こっているかをユーザーに伝えることができます。これらの簡素化されたツールの開発者は、アルゴリズムによって発見されたルールと、さらに重要なことに、結果を再現する方法を説明するインターフェースも作成します。彼らは理解を容易にするためにブラックボックスを開きたいのです。

機械学習を簡単にする6つのツール

これらすべての機能により、数字、スプレッドシート、データを扱う人々に機械学習の世界が開かれ、プログラミングやデータ サイエンスの必要性が大幅に軽減されます。次の 6 つのオプションにより、ユーザーが機械学習アルゴリズムを使用して膨大なデータの中から答えを見つける方法が簡素化されます。

1. スプランク

Splunk のオリジナル バージョンは、最新の Web アプリケーションによって作成された大量のログ ファイルを検索または「スヌーピング」するためのツールとして始まりました。あらゆる形式のデータ、特に時系列データや順次生成されるその他のデータを分析できるように進化しました。このツールは、洗練された視覚化ルーチンを備えたダッシュボードに結果を表示します。

最新リリースには、TensorFlow などの機械学習ツールや、いくつかの優れた Python オープンソース ツールとデータ ソースを統合するアプリケーションが含まれています。外れ値を検出し、異常をフラグ付けし、将来の値の予測を生成するための高速なソリューションを提供します。非常に大きなデータセット内のファイルを検索するために最適化されています。

2. データロボット

DataRobot 内のスタックは、R、Python、またはその他のプラットフォームで記述されたオープンソースのマシン ライブラリのコレクションです。ユーザーは、パイプラインを設定するためのフローチャートのようなツールを表示する Web インターフェイスのみを扱います。 DataRobot は、ローカル データベース、クラウド データ ストア、ダウンロードしたファイルやスプレッドシートなどの主要なデータ ソースに接続します。ユーザーが構築したパイプラインは、データをクリーンアップし、欠損値を埋めてから、外れ値にフラグを立てて将来の値を予測するモデルを生成できます。

DataRobot は、特定の予測が行われた理由について「人間にわかりやすい説明」を提供することも試みることができ、これは人工知能の応用を理解するのに非常に役立ちます。

クラウドとオンプレミスのソリューションのハイブリッドで展開できます。クラウド コンピューティングは共有リソースを通じて最大限の並列処理とスループットを実現できる一方、ローカル インストールではより高いプライバシーと制御を実現できます。

3. 水

H2O は、さまざまな機械学習ソリューションを探索する自動化スタックを説明するために、「無人 AI」という用語を好んで使用します。データ ソース (データベース、Hadoop、Spark など) を結び付け、さまざまなパラメータを持つさまざまなアルゴリズムに入力します。ユーザーは、問題に費やされる時間と計算リソースを制御し、予算が満たされるまでさまざまなパラメータの組み合わせをテストできます。結果はダッシュボードまたは Jupyter ノートブックを介して参照および確認できます。

H2O のコアとなる機械学習アルゴリズムと Spark などのツールとの統合はオープンソースですが、いわゆる「ドライバーレス」オプションは、エンタープライズ顧客に販売される独自のパッケージの 1 つです。

4. ラピッドマイナー

RapidMiner エコシステムの中心となるのは、視覚的なアイコンからデータ分析を作成するためのスタジオです。データをクリーンアップし、さまざまな統計アルゴリズムを実行します。ユーザーが従来のデータサイエンスの代わりに機械学習を使用する場合、自動モデルはさまざまな分類アルゴリズムから選択し、最適な一致が見つかるまでさまざまなパラメータを検索します。このツールの目的は、何百ものモデルを生成し、その中から最適なモデルを決定することです。

モデルを作成した後、ツールはモデルを展開しながら成功率をテストし、モデルがどのように決定を下したかを説明します。ビジュアル ワークフロー エディターを使用して、さまざまなデータ フィールドに対する感度をテストおよび調整できます。

最近の改善点には、テキスト分析の改善、ビジュアルダッシュボードを構築するためのより多様なグラフ、時系列データを分析するためのより洗練されたアルゴリズムなどがあります。

5. ビッグML

BigML ダッシュボードは、機械学習におけるより複雑な作業の基礎となる相関関係を識別するためのデータ サイエンスの重要なツールを提供します。たとえば、ディープ ネットワークは、より高度なニューラル ネットワークをテストおよび最適化するための高度なメカニズムを提供します。モデルの品質を他のアルゴリズムと比較することができ、標準化された比較フレームワークにより、ユーザーは従来のデータ サイエンスとより洗練された機械学習のどちらかを選択できます。

BigML のダッシュボードはブラウザで実行され、その分析は BigML クラウド プラットフォームまたはサーバー ルームで実行できます。クラウド コンピューティング バージョンは早期導入を促進するために価格が低く設定されており、無料レベルも用意されています。コストは主に、データセットのサイズ制限と、呼び出せるコンピューティング リソースの量によって決まります。無料利用枠では、最大 2 つのプロセスを並行して実行して、最大 16 MB のデータを分析します。小規模な有料アカウントは月額料金がわずか 30 ドルからと手頃ですが、リソース要件が増加すると価格も上がります。

6. Rスタジオ

R はプログラマー以外の人にとっては使いやすい言語ではありませんが、熱心なデータ サイエンティストの間で人気があるため、複雑な統計分析を実行するための最も重要なツールの 1 つとなっています。 R Studio は、内部の奥深くで実行されている R レイヤーとの対話を容易にする一連のメニューとポイント アンド クリック オプションをユーザーに提供するツールです。

スプレッドシートを扱うことができる上級管理者は、最もシンプルなオプションを使用して、基本的な分析や複雑な分析を実行できます。一部の部分は一部のユーザーを混乱させる可能性がありますが、興味のあるすべての人に公開され、アクセスできるようになる寸前です。まだ多少の混乱はありますが、最先端のツールを試してみたい人にとっては価値があります。

<<:  機械学習の導入を容易にする 6 つのツール

>>:  近年、「人工知能」が私たちの生活に静かに登場している

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIデータサービス業界は「認知戦争」に突入。なぜYunce Dataは業界No.1の座を維持しているのか?

新しいインフラストラクチャにより、AI の実装が加速され、その背後にある「糧」である AI データ ...

...

人工知能教師向けの類似質問の作成

類似の質問とは何ですか? また、なぜ類似の質問を書く必要があるのですか?類似質問はロボット教育を改善...

...

...

金融業界は AI を活用してデータを強化する準備ができているでしょうか?

金融業界は国民経済の生命線です。モバイルインターネットやオンライン決済の普及により、データは企業にと...

大規模製造企業におけるインテリジェントな意思決定シナリオの分析

1. 製造業の発展の現状まず、製造業企業の発展状況について紹介します。 1. 企業経営は直線的な発展...

...

...

アリババ機械知能チームの3年間の取り組みの概要

[[266129]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

3分レビュー! 2021年1月のロボット工学分野の重要な動向の概要

ポスト疫病時代において、国内ロボット市場は急速に発展しました。同時に、国際ロボット分野は前向きな発展...

AIが医療診断を改善する方法

人工知能システムは刻々と賢くなっています。運転や自然言語の理解などの複雑なタスクはすでに AI で実...

機械学習モデルの解釈可能性について

2019年2月、ポーランド政府は銀行法に改正を加え、信用判定に否定的な結果が出た場合に顧客に説明を求...

ChatGPTは人気を集めており、OpenAIはAIソフトウェア用のアプリストアの作成を検討している

今年 5 月、OpenAI はすべての ChatGPT Plus ユーザー向けにネットワーキングおよ...

...