6 つの基本的な AI 用語: 優れた人工知能コンサルティング サービスを提供するには?

6 つの基本的な AI 用語: 優れた人工知能コンサルティング サービスを提供するには?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。

AIコンサルティングサービスを利用したい場合、コンサルティング内容を最大限に活用できるように、まずはこの6つのAI用語を理解する必要があります。

[[389624]]

1. データラングリング

データ ラングリングとは、メタデータを取得して、それを機械学習や人工知能が理解できる形式と構造に変換するプロセスです。データ ラングリングは、クライアントが収集したデータを取得し、それを使用してソフトウェア ソリューションに必要なモデルを構築するために AI コンサルタントが実行する最初のステップの 1 つです。

このプロセスには、データの入力、データの構造化、不良データのクリーンアップ、より有効なフィールドを作成するためのデータ処理など、多くの手順が含まれます。この部分は単純に思えるかもしれませんが、おそらく最も重要な部分であり、クライアントが入力したデータを使用して、新しいコンサルタントがこのデータを整理できるようにする必要があります。

2. AIモデルのデータ補間

ほとんどのデータ セットには欠損値フィールドがあり、そのためデータ セットがまばらで断片化されているように見えます。最も迅速な修正方法は、データセットからフィールドまたは属性を単純に削除することですが、コンサルタントがアクセスできるデータはそもそも貴重であるため、これは多くの場合、初歩的な解決策です。

この場合、ほとんどのAIコンサルティング会社は、データ処理技術を通じて、残ったデータに基づいて欠損値に最も妥当な数値を割り当てます。最も一般的な手法は平均補間であり、これは現場の既知のデータの平均を取り、ギャップを埋めるものです。多くのデータ サイエンス コンサルタントがこの手法を使用しており、これは現在のデータ アーキテクチャを混乱させることなくギャップを埋める優れた方法です。

3. データの分割

人工知能や機械学習を使用する多くのモデルは、モデルのトレーニングとテストを目的としてデータをグループで処理します。多くの AI コンサルティング企業では、グループ化に十分なデータがあることを確認するために、提供されるデータがファイル サイズと行数に関して特定の数量要件を満たすことを要求します。

場合によっては、クライアントと協力して、確立されたデータセットに追加するテスト セットとして将来のデータを収集することもあります。 Scalr.ai では、特に将来、簡単に制御できるデータ ストリームを通じてデータを簡単に取得できるようになると、この 2 つを組み合わせるように努めます。

4. 教師あり学習

多くの AI コンサルティング サービスでは、機械学習やデータ サイエンスを活用し、アルゴリズムを使用して属性 (フィールドとも呼ばれます) と既知の最終目標との間のつながりを見つけます。ほとんどの AI コンサルタントは、AI ソフトウェア ソリューションでこれらのアプローチの少なくとも 1 つを使用しています。

このアプローチの典型的な例は、家の平方フィート数、階数、ドアの数をフィールドとするモデルです。ターゲット変数は家の既知の価値であり、このモデルを使用して将来の住宅価格を予測できます。

5. 教師なし学習

ご想像のとおり、このプロセスでは上記と同じ入力データセットが使用されますが、ターゲット変数は使用されないため、異なる結論が導き出されます。一般的に言えば、これはターゲット変数が不明であり、データに関する全体的な情報が不明であるが、何らかのターゲット変数の構築を開始したいために行われます。

ほとんどの AI コンサルティング企業は、これらのアルゴリズムを使用して、セキュリティ システム内の危険信号となる可能性のある範囲外のデータ ポイントなど、データ内の外れ値を見つけます。

6. モデル評価指標

最後に、望ましい結果を得るために効果的なモデルとアルゴリズムを構築する人材を雇用します。 AI コンサルタントは、評価指標を使用して、行われている作業の実際の進捗状況を把握し、発生した問題に基づいてソリューションを調整する方法を決定できます。

ほとんどの場合、モデルを評価するために使用される用語は、精度、AUC、および精度ですが、ソフトウェアでモデルを評価する方法は他にもたくさんあります。

<<:  幾何学的機械学習: 基礎科学でどのように実現するか?

>>:  スマート病院は現実に近づいているのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIが疫病と戦う:百度がマスク顔検出・分類モデルをオープンソース化

仕事に戻るにあたり、各地域はどのように流行を予防すべきでしょうか?人工知能技術は、新型コロナウイルス...

機械学習モデルの仕組み

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

...

スマートシティ: 統合管理プラットフォーム

都市は、モビリティ、安全性、住民とのコミュニケーションに関するデータの収集を容易にするために、より多...

在庫 | 今年の世界の AI 事情

​​​ [[253255]]​​ 1. 2018 年の世界の AI 業界の発展は非常に爆発的でした。...

ChatGPT の新たな脆弱性: 個人のプライバシーを暗唱してトレーニング データを漏洩する制御不能状態、OpenAI が修正、まだ機能している

ChatGPTの最新の脆弱性が明らかになり、たった1つの文でトレーニングデータがそのまま漏洩してしま...

...

JVMシリーズ(3):GCアルゴリズムガベージコレクター

[[204469]]概要ガベージコレクションは、通常「GC」と呼ばれます。1960年にMITのLis...

...

...

マイクロソフトの新しい画像キャプションAIは、Word、Outlook、その他のソフトウェアのアクセシビリティ向上に役立ちます。

Microsoft は、特定の限定されたテストにおいて人間の精度を上回る新しい画像キャプション作成...

70年前、彼は試験を避けたかったが、インターネット全体に影響を与えた

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

知っておくべき人工知能アルゴリズム トップ 10

人工知能 (AI) 技術の人気が高まるにつれ、さまざまなアルゴリズムがこの分野の発展を促進する上で重...

...