自己教師あり学習の概要と3つの主要分野における現状

自己教師あり学習の概要と3つの主要分野における現状

近年、教師あり学習によるディープラーニングも大きな成功を収めています。画像分類から言語翻訳まで、そのパフォーマンスは常に向上しています。ただし、一部の領域(希少疾患の医療データセットなど)では、大規模なラベル付きデータセットを収集することは高価であったり不可能であったりします。これらのタイプのデータセットは、自己教師ありアルゴリズムが予測モデルのパフォーマンスをさらに向上させる十分な機会を提供します。

[[433960]]

自己教師学習は、ラベルのないデータから情報表現を学習することを目的としています。この場合、ラベル付きデータセットはラベルなしデータセットよりも比較的小さくなります。自己教師学習では、このラベルなしデータを使用して、口実タスクと対照学習を実行します。

自己教師あり学習に関する優れた記事で、Jeremey Howard は教師あり学習を 2 つの段階に定義しています。「事前トレーニングに使用するタスクは先行タスクと呼ばれます。その後微調整に使用するタスクは下流タスクと呼ばれます。」自己教師学習の例には、将来の単語予測、マスクされた単語予測の修復、カラー化、超解像度などがあります。

コンピュータビジョンのための自己教師あり学習

自己教師あり学習法は、データの空間的および意味的構造に依存します。 画像の場合、空間構造の学習が非常に重要です。 画像から表現を学習するための事前タスクとして、回転、スプライシング、カラー化などのさまざまな手法が使用されます。 カラー化するには、グレースケールの写真を入力として取り込み、写真のカラーバージョンを生成します。 Zhangらの論文[1]では、鮮やかでリアルな陰影を生み出す陰影処理について説明している。

コンピューター ビジョンにおける自己教師学習で広く使用されているもう 1 つのアプローチは、画像パッチを配置することです。 一例としては、Doerschらによる論文[2]が挙げられる。 この研究では、大規模なラベルなし画像データセットが提供され、そこからランダムな画像パッチのペアが抽出されます。 この最初のステップの後、畳み込みニューラル ネットワークは、最初の画像パッチに対する 2 番目の画像パッチの位置を予測します。 図 2 はこのプロセスを示しています。

自己教師学習には、修復や誤分類された画像の識別など、他にもさまざまなアプローチがあります。 このテーマに興味のある方は、参考文献[3]をご覧ください。 上記のトピックに関する文献のレビューを提供します。

自然言語処理のための自己教師あり学習

自然言語処理タスクでは、自己教師あり学習法が最も一般的です。 Word2Vec 論文の「連続単語バッグ」アプローチは、自己教師学習の最も有名な例です。

同様に、自己教師学習には、隣接単語予測、隣接文予測、自己回帰言語モデリング、マスク言語モデリングなど、さまざまなアプローチがあります。 マスク言語モデリング定式化は、BERT、RoBERTa、および ALBERT の論文で使用されています。

テキストの自己教師学習の最近の例としては、Zhangらによる論文[4]が挙げられる。 著者らは、間隔を置いた文生成メカニズムを提案した。 このメカニズムは、要約の下流タスクを要約するために使用されます。

表形式データの自己教師学習

画像とテキストの自己教師学習は進歩しています。しかし、既存の自己教師あり学習法は表形式のデータには効果がありません。表形式のデータには空間的な関係や意味的な構造がないため、空間的および意味的な構造に依存する既存の手法は役に立ちません。

ほとんどの表形式データには、意味のある凸の組み合わせを持たないカテゴリ機能が含まれます。連続変数の場合でも、データ多様体が凸であるという保証はありません。しかし、この挑戦​​は研究者に新たな方向性を提示する。この点に関して行われた作業のいくつかについて簡単に説明します。

Vincentら[5]による研究では、ノイズ除去オートエンコーダのメカニズムが提案された。前のタスクは、破損したサンプルから元のサンプルを復元することです。別の論文では、Pathakら[6]は、破損したサンプルとマスクベクトルから元のサンプルを再構築するためのコンテキストエンコーダを提案した。

Tabnet [7]とTaBERT [8]の研究も自己教師学習に向けた漸進的な取り組みです。どちらの研究でも、事前タスクは破損した表形式データを回復することでした。 TabNet は各ステップで注目メカニズムと推論のための特徴の選択に重点を置いていますが、TABERT は自然言語の文章と半構造化テーブルの表現を学習します。

最近の研究(VIME)[9]では、新しい破損サンプル生成技術を使用してマスクベクトルと元のサンプルを回復するための新しい事前タスクが提案されました。 著者らはまた、対照学習と組み合わせて表形式データの教師あり学習を拡張できる新しい表形式データ拡張メカニズムを提案しています。 ここでの入力サンプルは、ラベルのないデータセットから生成されます。"

要約する

自己教師あり学習はディープラーニングにおける新たな標準です。 画像とテキストデータに対する自己教師あり学習技術は、それぞれ空間的依存性と連続的依存性に依存しているため、驚くべきものです。 ただし、表形式のデータには普遍的な相関構造は存在しません。 これにより、表形式データの自己教師学習がより困難になります。

<<:  初心者向けガイド: Numpy、Keras、PyTorch を使用した単純な線形回帰

>>:  上位 10 の古典的なソートアルゴリズムを理解するのに役立つ 20 枚の写真

ブログ    
ブログ    
ブログ    

推薦する

2018 年 4 月の最も人気のある AI 機械学習プロジェクト トップ 5

データサイエンスと機械学習に関しては、GitHub と Reddit が最も人気のある 2 つのプラ...

目に見えないものが見えるようになる!メタマテリアルとAIが融合し音像を解読

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

...

知湖橋プラットフォームにおける大型モデルの応用と実践

1. 事業の状況及び背景まずはブリッジプラットフォームを紹介します。 Bridge は、Zhihu ...

ChatGPTスーパープラグインをテスト済み: 経験ゼロでも5分でゲームを開発

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

予知保全: 畳み込みニューラル ネットワーク (CNN) を使用したセンサー障害の検出

[[266977]]機械学習では、予知保全のトピックが時間の経過とともにますます人気が高まっています...

...

Titanium Technology CEO、Li Shuhao氏:ツールの輸出からブランドの輸出まで、Martechはどのような新たな機会に直面していますか?

2020年、国内の新たな消費が活況を呈する一方で、海外市場も急速な成長機会の新たな波を迎えています...

Uberの自動運転車の死亡事故から忘れてはならない10の教訓

自動運転技術は常に注目を集めてきたが、「幻滅」に直面している。これによって起きた初の交通事故死は、1...

Microsoft Office Family Bucket Edition GPT-4 の価格は月額 30 ドル、Azure は Llama 2 と提携

ここ数カ月、国内外のテクノロジー大手は大規模モデルをめぐって動きを見せているが、OpenAIを所有す...

ディープラーニングのパイオニア、ヤン・ルカン氏、叱責を受けてツイッターを辞める「皆さんはもうすべて知っています。これからは何も言いません」

2週間に及ぶ「舌戦」の末、チューリング賞受賞者でフェイスブックの主任AI科学者であるヤン・ルカン氏...

...

認知知能は魔法のようなもの:2021 年の主要なブレークスルーを振り返る

著者: ユン・チャオ[51CTO.com からのオリジナル記事]人工知能ソリューションの応用が進むに...

2022年にテクノロジー業界を変えるAIユニコーン企業トップ10

現在、人工知能は独立に向けて動き始めています。世界中の企業はこの学際的な分野に適応し、ほぼすべてのビ...