73歳のヒントン氏は、次世代のニューラルネットワーク「教師なし対照学習」を考案した。

73歳のヒントン氏は、次世代のニューラルネットワーク「教師なし対照学習」を考案した。

最近開催された第43回国際情報検索会議(ACM SIGIR2020)で、Geoffrey Hinton氏が「次世代のニューラルネットワーク」と題する報告を行いました。

ジェフリー・ヒントン氏は、Google の副社長兼エンジニアリング研究者であり、Vector Institute の主任科学顧問、トロント大学の名誉教授です。 2018年、彼はヨシュア・ベンジオ氏、ヤン・ルカン氏とともに、ディープラーニング分野への多大な貢献によりチューリング賞を共同で受賞しました。

ジェフリー・ヒントンは 1980 年代から、人工知能の研究に機械学習手法を利用することを提唱してきました。彼は、人間の脳の働きを通して機械学習システムを探求したいと考えています。人間の脳にヒントを得て、彼と他の研究者は「人工ニューラルネットワーク」を提案し、それが機械学習研究の基礎を築きました。

では、30年以上経った今、ニューラルネットワークの今後の発展の方向性はどこにあるのでしょうか?

このレポートで、ヒントン氏はニューラルネットワークの発展の歴史を振り返り、次世代のニューラルネットワークは教師なし対照学習に属するだろうと述べました

ヒントン氏の報告書の主な内容は以下のとおりです。

人工ニューラル ネットワークにとって最も重要な未解決の問題は、脳と同じくらい効率的に教師なし学習を実行する方法です。

現在、教師なし学習法には主に 2 つの種類があります。

最初のカテゴリの代表的なものとしては、ディープ ニューラル ネットワークを使用して入力を再構築する BERT と変分オートエンコーダ (VAE) があります。ただし、ネットワークの最も深い層で画像の詳細をエンコードする必要があるため、これらの方法は画像には適していません。

1992 年にベッカーとヒントンが提案した別のアプローチでは、ディープ ニューラル ネットワークの 2 つのコピーをトレーニングして、同じ画像の 2 つの異なる切り抜きバージョンを入力として、相互情報量の高い出力ベクトルを生成できるようにします。このような方法は、入力の無関係な詳細から表現を解放するように設計されています。

Becker と Hinton が使用した相互情報量最適化法にはいくつかの欠陥があったため、Pacannaro と Hinton は後に、ベクトル表現が複数のベクトル表現の中から対応するものを選択するという識別目的に置き換えました。

ハードウェアの高速化により、表現対照学習は最近人気が高まり、非常に効率的であることが証明されていますが、依然として大きな欠陥があります。N ビットの相互情報量を持つ表現ベクトルのペアを学習するには、正しい対応ベクトルを 2N 個の誤ったベクトルと比較する必要があります。

ヒントン氏は講演の中で、この問題に対処するための新しい効率的な方法を紹介した。さらに、皮質知覚学習を実現するためのシンプルなアプローチを紹介しています。

次に、ヒントン氏のスピーチの具体的な内容を見てみましょう。

なぜ教師なし学習が必要なのでしょうか?

ニューラル ネットワークの将来の発展を予測する前に、ヒントン氏はまずニューラル ネットワークの開発プロセスを検討しました。

講演の冒頭でヒントン氏はまず、教師あり学習、強化学習、教師なし学習という3つの学習タスクを紹介し、教師なし学習の必要性を強調しました。

なぜ教師なし学習が必要なのでしょうか?

ヒントン氏はそれを生物学的観点から説明した。彼は、人間の脳には 10^14 個のニューロンシナプスがあるのに対し、人生は 10^9 秒しかないことを指摘しました。したがって、人間はすべてのニューロントレーニングを完了するために教師あり学習に完全に依存することはできず、教師なし学習の支援が必要です。

これに触発されて、インテリジェントなモデルを構築するには教師なし学習も必要です。

教師なし学習の発展

教師なし学習はどのように発展してきましたか? Hinton は、教師なし学習における一般的な目的関数を紹介します。

次に、ヒントン氏はオートエンコーダについて詳しく説明しました。

ヒントン氏は、オートエンコーダは教師あり学習を使用して教師なし学習を実現する方法であり、最終的な再構成をデータと一致させることを目標としていると述べた。エンコーダーはデータ ベクトルをコードに変換し、デコーダーはコードに基づいてデータを生成します。

Hinton 氏は、オートエンコーダの定義、ディープ オートエンコーダのトレーニングの難しさや現状について概要を説明した後、変分オートエンコーダと BERT オートエンコーダという2 種類のオートエンコーダに焦点を当てました。

ディープニューラルネットワークを使用した入力の再構築: VAE と BERT

BERT と変分オートエンコーダ (VAE) は、ディープ ニューラル ネットワークを使用して入力を再構築する、教師なし学習の代表的な例です。

変分オートエンコーダは、2013 年に Wellings と Kingma によって提案されました。複数層のエンコーダを使用して実際のコードを選択し、複数層のデコーダを使用してデータを再構築します。 VAE の基本構造を下図に示します。

バート

これは、Google が 2018 年に提案した言語表現モデルであり、すべてのレイヤーの左右のコンテキストに基づいて、双方向の深層表現を事前トレーニングします。

コンテキスト情報は BERT にとって非常に重要です。BERT はマスク言語モデル (MLM) を使用して、左コンテキストと右コンテキストの融合を表現し、深層双方向トランスフォーマーを事前トレーニングします。

ヒントンは例を挙げた。「彼女はフライパンで彼を殴った。」この文では、scromedの意味を知らなくても、文脈から推測することができます。

視覚領域でも同様です。しかし、 BERT などの手法は、ネットワークの最深層で画像の詳細をエンコードする必要があるため、視野にはうまく適用できません

VAE と BERT に代表される教師なし学習法について説明した後、Hinton 氏は別の種類の教師なし学習法を紹介しました。

ベッカーとヒントンは相互情報量を最大化する手法を提案した。

では、オートエンコーダーや生成モデルに代わるものはあるのでしょうか?ヒントン氏は、感覚入力のあらゆる詳細を解釈するのをやめて、代わりに空間的または時間的に一貫した特徴を抽出することに焦点を当てることができると示唆しています。このアプローチの利点は、オートエンコーダとは異なり、ノイズを無視できることです

次にヒントン氏は、1992 年にスザンナ・ベッカー氏と共同で提案した、空間的に一貫した特徴を抽出する方法について詳しく説明します。この方法の中心的な考え方は、入力の 2 つの重複しないパッチ表現間の明示的な相互情報量を最大化することです。 Hinton は、以下に示すように、空間的に一貫した変数を抽出する簡単な例を示しています。

トレーニング後、ヒントンは、空間的に一貫した唯一の特徴は「不一致」(空間的に一貫した唯一の特性は視差)であるため、これも抽出する必要があることを指摘しました。

彼は、相互情報量を最大化するこのアプローチには難しい問題があり、次のような仮定を立てていると述べました。線形マッピングのみが学習され、線形関数が最適化されると、変数は分散されるというものです。ただし、この仮定はそれほど多くの問題を引き起こすことはありません。

これまでの研究方法のレビュー

この部分では、ヒントンは LLE、LRE、SNE、t-SNE などの手法を紹介しました。

局所線形埋め込み (LLE)

Hinton は、2000 年の Science 論文「Nonlinear Dimensionality Reduction by Locally Linear Embedding」で Sam T. Roweis と Lawrence K. Saul が言及した、高次元のデータ ポイントを 2 次元グラフに表示し、非常に類似したデータ ポイントを互いに近づけることができる、局所線形埋め込み法を紹介しました。

ただし、LLE 方式では、データ ポイントの重複や凝固、次元の崩壊などの問題が発生することに注意する必要があります。

次の図は、MNIST データセット内の数字のローカル線形埋め込みを示しています。各色は異なる数字を表しています。

さらに、これらの長い弦はほとんどが 1 次元であり、互いに直交しています。

線形関係埋め込み (LRE) から確率的近傍埋め込み (SNE) へ

このセクションでは、Hinton が線形関係埋め込み (LRE) 手法から確率的近傍埋め込み (SNE) 手法への移行について説明します。彼は、「類似」関係が存在する場合にのみ、LRE が SNE に変換されると述べました。

同時に、ヒントンは、LRE 目的関数が次元削減に使用できることを指摘しました。

下の図は SNE の概略図です。高次元空間内の各点には、他の点を近傍として選択する条件付き確率があり、近傍分布は高次元のペアワイズ距離に基づいています。

確率的近傍埋め込み (SNE) から t 分布確率的近傍埋め込み (t-SNE) へ

t 分布確率的近傍埋め込み (t-SNE) は SNE の変形であり、学生分布を使用して低次元空間の確​​率分布を表します。

Hinton は、MNIST データセット内の数字の t-SNE 埋め込みを次の図に示しています。各色は異なる数字を表しています。

これらの方法を紹介した後、ヒントンは 2 つの疑問を提起しました。1) 非線形マッピングや非パラメトリック マッピングを最適化するときに、分散制約のパフォーマンスが低下するのはなぜですか? 2) 正準相関分析や線形判別分析の非線形バージョンが機能しないのはなぜですか?そして答えました。

最後に、ヒントンは、対照損失を使用して空間的または時間的一貫性のベクトル表現を抽出することを提案し、対照損失の使用を試みた2004年のルスラン・サラクディノフとの調査、および2018年のオード、リー、およびヴィニャルスによる対照損失の使用を紹介し、このアイデアを再現して時間的一貫性の表現を発見するために使用しました。

ヒントン氏は、対照的損失は教師なし学習で非常に人気のある手法であると述べた。

SimCLR、教師なし対照学習の最新実装

講演の最後に、ヒントン氏は、一貫性のある表現を抽出するためにコントラスト損失を使用する、彼のチームの最新の SimCLR 実装について説明しました。これは、視覚表現のコントラスト学習のためのシンプルなフレームワークであり、これまでのすべての研究だけでなく、最新のコントラスト自己教師学習アルゴリズムよりも優れています。

次の図は SimCLR の動作原理を示しています。

では、SimCLR は ImageNet でトップ 1 の精度をどのように実現するのでしょうか?下の図は、SimCLR と ImageNet (ImageNet で事前トレーニング済み) におけるさまざまな以前の自己教師あり手法の Top-1 精度の比較、および ResNet-50 の教師あり学習効果を示しています。

Hinton 氏は、ImageNet の画像ラベルの 1% を微調整した後、SimCLR は 85.8% のトップ 5 精度を達成でき、ラベルのわずか 1% で AlexNet を上回る結果になったと述べました。

<<:  Cloud Pak for Data 3.0は、企業のコスト削減と効率性の向上を支援し、AI導入を加速します。

>>:  人工知能 (AI) を活用して仕事の未来を築くにはどうすればよいでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

AIも催眠術をかけられるのか?

いつか、おそらく数十年以内に、人工ニューラル ネットワークを使用して、人間の脳をリアルにシミュレート...

【機械学習を図解で解説】誰でもわかるアルゴリズムの原理

アルゴリズムの式はかなり面倒で、機械学習は苦痛すぎる。機械学習を初めて学ぶ人は、複雑な数式やわかりに...

これは陰謀論ですか? AIさん、どう思いますか?

[[385257]]ビッグデータダイジェスト制作出典: iflscience編集:赤道のパンダボデ...

人間の言語を話せる人工知能はより価値がある

[[187065]]ここ数年でビッグデータが徐々に登場してきました。しかし、TDWI の調査によると...

深層強化学習について知っておくべきこと

[51CTO.com クイック翻訳] 現在、機械学習(ML)と人工知能(AI)に関連するアルゴリズム...

2021年の中国サービスロボット産業の発展状況のレビュー

人口の高齢化が加速し、教育に対する需要が引き続き強いことから、中国のサービスロボットは大きな市場潜在...

ビッグデータはスマートな警察活動の基盤であり、AIは包括的な分析と判断の原動力である

都市化と経済発展の加速に伴い、我が国の社会保障を構成する要素が拡大し、公安機関の警察活動に大きな圧力...

ヘッドライトから始めて、自動運転はどのようにして攻撃性を排除するのでしょうか?

これは、鞭で打たれるとどんどん速く回転するコマのような「高離職率」社会です。技術推論において非常に重...

複数の都市が共同で人工知能コンピューティングネットワークを点灯し、人工知能産業の発展を促進する

Huawei Connect 2021では、中国科学技術情報研究所(CITI)、AITISA(新世代...

強化学習の専門家 Sergey Levine: スケーラブルな自己教師あり学習の基盤としての強化学習

[[438887]]現在、機械学習システムは、コンピュータービジョン、音声認識、自然言語処理など、多...

AIOps に関する 6 つの誤解とその説明

[[387871]] AIOps とは何でしょうか? IT リーダーは、AIOps に関する一般的な...

Ocado が機械学習を活用して食品廃棄を減らし、飢餓と闘う方法

[[282701]] [51CTO.com クイック翻訳] 食品廃棄は世界中で大きな問題となっていま...

データサイエンスについて知っておくべきこと: 10 の重要な概念 + 22 のグラフ

01 バイアスと分散のトレードオフこれは、機械学習における最も重要な理論の中で常に上位にランクされ...

オフサイトのコンピューティング能力の使用率が 55% 向上し、オープンソースになりました。 「東洋のデータと西洋のコンピューティング」のAIインフラへの対応

AIの波の中で、企業や国を問わず、コンピューティング能力に対する需要は日々高まっています。最近立ち上...