機械学習はどのような種類のタスクを解決できますか?

機械学習はどのような種類のタスクを解決できますか?

機械学習により、人間が設計した固定されたプログラムでは解決が難しい問題を解決できるようになります。科学的、哲学的な観点から見ると、機械学習は興味深いものです。なぜなら、機械学習に対する理解を深めるには、知能の背後にある原理に対する理解を深める必要があるからです。

「タスク」のより正式な定義を考慮すると、学習のプロセスはタスクではありません。学習とは、タスクを達成する能力を習得することです。たとえば、歩行可能なロボットが目標であれば、歩行がタスクになります。ロボットが歩き方を学習するようにプログラムすることも、具体的な指示を書いてロボットに手動で歩き方を指示することもできます。

通常、機械学習タスクは、機械学習システムがサンプルを処理する方法として定義されます (例)。サンプルとは、機械学習システムで処理する特定のオブジェクトまたはイベントから収集した定量化された特徴の集合です。通常、サンプルはベクトル x∈Rn として表され、ベクトルの各要素 xi は特徴です。たとえば、画像の特徴は通常、画像のピクセルを指します。

機械学習は多くの種類のタスクを解決できます。非常に一般的な機械学習タスクをいくつか以下に示します。

分類: このタイプのタスクでは、コンピュータ プログラムは、入力が K 個のカテゴリのどれに属するかを指定する必要があります。このタスクを実行するために、学習アルゴリズムは通常、関数を返します。 y = f(x) の場合、モデルは数値コード y で表されるカテゴリをベクトル x で表される入力に割り当てます。他にも分類問題がいくつかあります。たとえば、f の出力はさまざまなカテゴリの確率分布です。分類タスクの 1 つのタイプはオブジェクト認識です。入力は画像 (通常はピクセルの輝度値のセットによって表される) で、出力は画像内のオブジェクトを表すデジタル コードです。たとえば、Willow Garage PR2 ロボットはウェイターのようにさまざまな飲み物を認識し、注文した顧客に提供します。現在、ほとんどの物体認識作業はディープラーニングに基づいています。オブジェクト認識は、コンピューターが顔を認識するための基本的な技術でもあります。写真コレクション内の顔にタグを付けるのに使用でき、コンピューターがユーザーとより自然に対話するのに役立ちます。

[[214647]]

入力欠損分類: 入力ベクトルのすべてのメトリックが保証されていない場合、分類の問題はより困難になります。分類タスクを解決するには、学習アルゴリズムで入力ベクトルから出力カテゴリにマッピングする関数を定義するだけで済みます。一部の入力が欠落している可能性がある場合、学習アルゴリズムは単一の分類関数ではなく関数のセットを学習する必要があります。各関数は、欠損入力の異なるサブセットを使用して x を分類することに対応します。多くの種類の医療検査は高価で身体に有害であるため、このような状況は医療診断で頻繁に発生します。このような大規模なセット関数を定義する効率的な方法は、すべての関連する変数の確率分布を学習し、欠落している変数を除外して分類タスクを解決することです。 n 個の入力変数がある場合、欠損入力の可能なセットごとに必要な 2n 個の異なる分類関数がすべて揃いますが、コンピュータ プログラムは結合確率分布を記述する 1 つの関数を学習するだけで済みます。このようなタスクに深層確率モデルを適用する例を参照してください。このセクションで説明する他のタスクの多くは、欠損入力の場合にも一般化できます。欠損入力の分類は、機械学習で解決できる問題の一例にすぎません。

回帰: 入力が与えられた場合にコンピュータ プログラムが数値を予測するタスク。この問題を解決するために、学習アルゴリズムは関数を出力します。このタイプの問題は、結果が異なる形式で返されることを除いて、分類問題と非常に似ています。このようなタスクの例としては、保険契約者の請求額(保険料の設定に使用)を予測したり、証券の将来の価格を予測したりすることが挙げられます。このタイプの予測はアルゴリズム取引でも使用されます。

転写: このタイプのタスクでは、機械学習システムが比較的構造化されていないデータ表現を観察し、その情報を個別のテキスト形式に転写します。たとえば、光学文字認識では、テキストの画像に基づいて文字のシーケンス (ASCII または Unicode) を返すコンピュータ プログラムが必要です。 Google ストリートビューでは、ディープラーニングを使用してこのように番地を処理します。もう 1 つの例は音声認識です。音声認識では、コンピュータ プログラムがオーディオ波形を入力として受け取り、オーディオ録音で話された文字または単語の ID を表す一連のコードを出力します。ディープラーニングは現代の音声認識システムの重要な構成要素であり、Microsoft、IBM、Google など多くの企業で使用されています。

機械翻訳: 機械翻訳タスクでは、入力は 1 つの言語の記号のシーケンスであり、コンピューター プログラムはそれを別の言語の記号のシーケンスに変換する必要があります。これは通常、英語からフランス語への翻訳など、自然言語に適用されます。最近、ディープラーニングがこのタスクに大きな影響を与え始めています。

構造化出力: 構造化出力タスクには、さまざまな要素間の重要な関係を含むベクトル (または複数の値を持つその他のデータ構造) が出力されるタスクが含まれます。これは非常に大きなカテゴリであり、前述の文字起こしや翻訳のタスクを含む他の多くのタスクが含まれます。たとえば、文法分析 - 自然言語の文を文法構造ツリーにマッピングし、ツリーのノードを動詞、名詞、副詞などとしてマークします。 「解析へのディープラーニングの適用」を参照してください。もう 1 つの例は、各ピクセルを特定のクラスに割り当てる、画像のピクセル レベルのセグメンテーションです。たとえば、ディープラーニングを使用して、航空写真内の道路の位置に注釈を付けることができます。これらの注釈タスクでは、出力の構造が入力と可能な限り類似している必要はありません。たとえば、画像のキャプション作成では、コンピュータ プログラムが画像を観察し、その画像を説明する自然言語の文章を出力します。このタイプのタスクは、出力値が互いに密接に関連しているため、構造化出力タスクと呼ばれます。たとえば、画像キャプション プログラムによって出力される単語は、一貫した文に結合される必要があります。

異常検出: これは、コンピュータ プログラムが一連のイベントまたはオブジェクトをふるいにかけ、異常または非定型的なものにフラグを立てるタスクです。異常検出タスクの例としては、クレジットカード詐欺の検出があります。あなたの購入習慣をモデル化することで、クレジットカード会社はあなたのカードが不正に使用されているかどうかを検出できます。泥棒があなたのクレジットカードまたはクレジットカード情報を盗んだ場合、泥棒が購入する商品の分布は通常、あなたのものとは異なります。カードで異常な購入が行われた場合、クレジットカード会社は不正行為を防ぐためにできるだけ早くカードを凍結することができます。不正行為の検出方法について学びます。

合成とサンプリング: これらのタスクでは、機械学習プログラムはトレーニング データに類似した新しい例を生成します。機械学習を通じて、合成とサンプリングはメディアアプリケーションで非常に役立ち、アーティストによる高価で面倒で時間のかかる手作業を回避できます。たとえば、ビデオ ゲームでは、アーティストが各ピクセルに手動でラベルを付けるのではなく、大きなオブジェクトや風景のテクスチャを自動的に生成できます。場合によっては、サンプリングまたは合成プロセスで、特定の入力に基づいて特定の種類の出力を生成する必要があります。たとえば、音声合成タスクでは、書かれた文章を提供し、プログラムにその文章のオーディオ波形を出力するように要求します。これは構造化された出力タスクの一種ですが、各入力に対して正しい出力が 1 つだけではないという条件が追加されています。結果がより自然で現実的に見えるように、出力に大きな偏差を持たせることを明示的に希望します。

欠損値の補完: このタイプのタスクでは、機械学習アルゴリズムに新しいサンプル x∈Rn が与えられますが、x の一部の要素 xi は欠損しています。アルゴリズムはこれらの欠落値を補う必要があります。

ノイズ除去: このタイプのタスクでは、機械学習アルゴリズムへの入力は、クリーンなサンプル x∈Rn から未知の破損プロセスによって取得された汚染されたサンプルです。アルゴリズムは、汚染されたサンプル x に基づいてクリーンなサンプル x を予測します。より一般的には、条件付き確率分布 P(x |~x) を予測します。

[[214648]]

密度推定または確率分布法則関数推定: 密度推定問題では、機械学習アルゴリズムによって学習された関数は、サンプルサンプリング空間の確率密度関数 (x が連続している場合) または確率分布法則関数 (x が離散している場合) として解釈できます。このようなタスクを適切に実行するには (パフォーマンス メトリック P について説明するときにタスクが何であるかを明示的に定義します)、アルゴリズムは観測されたデータの構造を学習する必要があります。アルゴリズムは、サンプルのクラスタリングがいつ発生するか、またいつ発生する可能性が低いかを認識する必要があります。上記のタスクのほとんどでは、学習アルゴリズムが少なくとも暗黙的に確率分布の構造を捉えることが必要です。密度分布により、この分布を明示的に捉えることができます。原理的には、この分布に基づいて計算することで他のタスクを解決することができます。たとえば、密度推定によって確率分布 p(x) を取得した場合、この分布を使用して欠損値補完タスクを解決できます。 xiの値が欠落しているが、他の変数x??iの値がわかっている場合は、条件付き確率分布を取得できます。実際には、多くの場合 p(x) の計算が難しいため、密度推定ではこのような問題をすべて解決することはできません。

もちろん、他にも多くのタスクや、他の種類のタスクがあります。ここでリストするタスク タイプは、機械学習で実行できるタスクを紹介するためにのみ使用され、機械学習タスクの分類を厳密に定義するものではありません。

<<:  CES 2018: 見逃せない 4 つの主要なテクノロジー トレンド

>>:  ディープラーニング、ノイズ除去オートエンコーダを使用して生データを予測する方法は?

ブログ    

推薦する

人工知能の歴史 - チューリングテストからビッグデータまで

[[194770]]私はずっと、人工知能がどのように提案されたのか、その背後にはどのような物語がある...

AIは中国のSaaS状況を打破できるか?

SaaS はバリューチェーンが短く、拡張性が速く、キャッシュフローが高いという優れたビジネスですが...

出勤初日、AIバーチャル天気予報キャスターがレポートを担当。冬季オリンピックの裏側にあるAIブラックテクノロジーを振り返る

表紙ニュース記者 孟美 張悦希休日明けの初日、北京冬季オリンピックも競技3日目に入った。スタジアム内...

...

...

機械学習プロジェクトの 87% が失敗する 10 の理由

機械学習は、最近ニュースでよく耳にする言葉ですが、さらに多くのことを実現する可能性を秘めた技術です。...

張震: AIOps の 6 つの技術的難しさと CreditEase の運用と保守における大きな変化

[51CTO.com からのオリジナル記事] 運用と保守の発展プロセスは産業革命に似ています。3 つ...

2024 年のビッグデータ業界予測 (パート 3)

ディープラーニングディープフェイクの危険性: 2024 年には、特に仮想顧客サービス環境において、消...

マイクロソフト、警察への顔認識サポート提供を禁止される企業リストに加わる

マイクロソフトはIBMとアマゾンに続き、米警察への顔認識ソフトウェアの販売を停止した最新のテクノロジ...

スマートドライビングが誕生してから10年経った今、なぜ理想的なビジネスモデルの実現が難しいのでしょうか?

[[420239]] 2011年7月14日、紅旗HQ3は長沙から武漢までの286キロの高速道路を疾...

産業用 IoT が人工知能の時代へ

インテリジェンスは近年、製造業における最も重要なトレンドです。過去数年間の市場教育を経て、過去2年間...

「安佳」の人工知能版? 「AI仲介人」が近々登場?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

ALPHGOがイ・セドルを破ってから500日が経ち、BATは人工知能のために何をしたのか?

[[201115]] 2016年3月15日、ALPHGOが韓国の囲碁プレイヤー、イ・セドルを4対1...

朱磊博士が自動運転技術の現状と今後の動向について語る

熱狂が冷め、合理性が戻った後、自動運転業界は再び混乱に陥っています。過去1年間、資金調達、量産計画、...