RNN と LSTM は弱いです!注目モデルは王様!

RNN と LSTM は弱いです!注目モデルは王様!

リカレント ニューラル ネットワーク (RNN)、長期短期記憶 (LSTM)、これらの人気のニューラル ネットワークは、もう捨て去るべき時です。LSTM と RNN は 1980 年代と 1990 年代に発明され、2014 年に復活しました。その後数年間で、それらはシーケンス学習とシーケンス変換 (seq2seq) を解決する方法となり、音声テキスト認識や Siri、Cortana、Google 音声アシスタント、Alexa の機能の驚くべき改善も可能になりました。

[[228013]]

また、文書をさまざまな言語に翻訳する機械翻訳や、画像をテキストに、テキストを画像に、字幕動画などに翻訳できるニューラル ネットワーク機械翻訳も忘れないでください。

その後数年で、ResNet が登場しました。 ResNet は残差ネットワークであり、より深いモデルをトレーニングすることを意味します。 2016 年、Microsoft Research Asia の研究者グループは、驚異的な 152 層のディープ残差ネットワークで ImageNet 画像認識チャレンジに勝利し、画像分類、画像位置特定、画像検出の 3 つの主要プロジェクトすべてで絶対的な優位性を持って優勝しました。その後、Attention モデルが登場しました。

たった2年しか経っていませんが、今日私たちは確信を持ってこう言うことができます。

  • 「RNN と LSTM の使用をやめましょう。もう役に立たないのです!」

事実に基づいて話しましょう。 Google、Facebook、Salesforce などの企業は、注目モデルに基づくネットワークをますます活用しています。

これらの企業はすべて、すでに RNN とその派生モデルをアテンションベースのモデルに置き換えていますが、これはまだ始まりに過ぎません。 RNN は、アテンションベースのモデルよりもトレーニングと実行に多くのリソースを必要とします。 RNN は破滅する運命にある。

なぜ

RNN と LSTM およびその派生物は、主に時間の経過に伴う順次処理を目的としていることに留意してください。次の画像の水平矢印を参照してください。


▲RNNにおける逐次処理

水平矢印は、長期情報が現在の処理ユニットに入る前にすべてのユニットを順番に通過する必要があることを意味します。つまり、0 未満の小さな数を何度も掛けると、簡単に破損する可能性があります。これが勾配消失問題の原因です。

この目的のために、今日では救世主とみなされている LSTM モデルが登場しました。これは、ユニットをバイパスしてより長い時間ステップを記憶できる ResNet モデルに少し似ています。したがって、LSTM は勾配消失問題の一部を排除できます。


▲LSTMにおける逐次処理

上の図からわかるように、これですべての問題が解決するわけではありません。過去のユニットから現在のユニットまでの連続したパスがまだ残っています。実際、パスには付加物があり、従属するブランチを無視するため、パスはより複雑になっています。

LSTM と GRU (Gated Recurrent Uni、LSTM の派生) およびその派生型が、より長期的な情報を大量に記憶できることは間違いありません。ただし、これらが記憶できるのは 1,000 個以上のシーケンスではなく、100 個程度のシーケンスのみです。

RNN のもう 1 つの問題は、トレーニングに非常に多くのハードウェアが必要になることです。さらに、これらのネットワークを高速にトレーニングする必要はありませんが、それでも多くのリソースが必要になります。また、これらのモデルをクラウドで実行するには、多くのリソースが必要です。

音声テキスト変換の需要が急速に高まっていることを考慮すると、クラウドは拡張可能ではありません。 Amazon Echo などのエッジでデータを処理する必要があります。

何をするか?

順次処理を避ける必要がある場合は、「フォワード」またはより適切な「バックトラッキング」ユニットを見つけることができます。これは、リアルタイムの因果データを扱う場合、ほとんどの場合、「過去を振り返り」、それが将来の決定に与える影響(「将来に影響を与える」)を知りたいからです。たとえば、完全なデータと十分な処理時間がある文章の翻訳や録画されたビデオの分析などの場合には、これは当てはまりません。このようなバックトラッキング/フォワードユニットは、Neural Attention モデル グループです。

この目的のために、複数のニューラル ネットワーク アテンション モデルを組み合わせることで、次の図に示すように、「階層型ニューラル ネットワーク アテンション エンコーダー」が登場しました。


▲階層型ニューラルネットワークアテンションエンコーダ

「過去を振り返る」ためのより良い方法は、注意モデルを使用して過去のエンコーディング ベクトルをコンテキスト ベクトル CT に要約することです。

上記では、ニューラル ネットワークの階層と非常によく似た注意モデルの階層があることに注目してください。これは、以下の注釈 3 の Temporal Convolutional Network (TCN) にも似ています。

階層型ニューラル ネットワークの注意エンコーダーでは、複数の注意層が最近の過去の小さな部分、たとえば 100 ベクトルを調べることができ、その上の層はこれらの 100 個の注意モジュールを調べて、100 x 100 ベクトルの情報を効果的に統合できます。これにより、階層型ニューラル ネットワーク アテンション エンコーダーの機能が 10,000 個の過去ベクトルに拡張されます。

これこそが「過去を振り返り」、そして「未来に影響を与える」ための正しい方法です!

しかし、表現ベクトルがネットワーク出力に伝播するために必要なパスの長さを見ることの方が重要です。階層型ネットワークでは、これは log(N) に比例します。ここで、N は階層内の層の数です。これは、RNN が実行する必要がある T ステップ (T は記憶するシーケンスの最大長、T >> N) とは対照的です。

トレース情報を 100 ステップスキップするよりも、3 ~ 4 ステップスキップする方がはるかに簡単です。

このアーキテクチャはニューラル ネットワークのチューリング マシンと非常に似ていますが、ニューラル ネットワークが注意を通じてメモリから何を読み取るかを決定できるようにします。これは、実用的なニューラル ネットワークが、過去のどのベクトルが将来の決定にとって重要であるかを決定することを意味します。

しかし、メモリへの保存はどうでしょうか? 上記のアーキテクチャは、以前のすべての表現をメモリに保存しますが、これはニューラル チューリング マシン (NTM) とは異なります。これは非常に非効率的です。ビデオ内の各フレームの表現を保存することを検討してください。ほとんどの場合、表現ベクトルはフレームごとに変化しないため、実際には同じものをあまりにも多く保存していることになります。

私たちにできることは、関連データが保存されないように別のユニットを追加することです。たとえば、以前保存されたベクトルと非常に類似しているベクトルは保存されません。しかし、これは実際には単なるハックであり、どのベクトルを保存するか、または保存しないかをアプリケーションに指示させるのが最善のアプローチです。これが現在の研究の焦点である

多くの企業が音声からテキストへの変換に RNN/LSTM をまだ使用していることに本当に驚いています。多くの人は、これらのネットワークが非常に非効率で拡張不可能であることに気づいていません。

RNN と LSTM のトレーニングの悪夢

RNN と LSTM のトレーニングは、メモリ帯域幅に制限された計算を必要とするため困難であり、これはハードウェア設計者にとって最悪の悪夢であり、最終的にはニューラル ネットワーク ソリューションの適用範囲を制限します。つまり、LSTM では、各シーケンス タイム ステップで実行するために、ユニットごとに 4 つの線形レイヤー (MLP レイヤー) が必要です。

線形レイヤーの計算には大量のメモリ帯域幅が必要であり、実際には、多くの計算ユニットを使用することはできません。これは通常、計算ユニットを満たすのに十分なメモリ帯域幅がシステムにないためです。また、コンピューティング ユニットを追加するのは簡単ですが、メモリ帯域幅を追加するのは困難です (チップ上には十分な数のワイヤがあり、プロセッサからメモリへのワイヤも長いことに注意してください)。

その結果、RNN/LSTM とそのバリエーションはハードウェア アクセラレーションに適していません。これについては、以前こことここで説明しました。解決策としては、FWDNXT で取り組んでいるように、ストレージ デバイス内で計算することが挙げられます。

つまり、RNN を捨ててください。注目モデルこそが本当に必要なすべてです!

<<:  データセンターにおける AI の未来

>>:  これら15のアルゴリズムをマスターすれば、グラフデータベースNeo4jを操作できるようになります。

ブログ    
ブログ    
ブログ    

推薦する

人工知能分野で最も有望な技術トップ10

2018年世界ロボット会議が北京で開催され、ロボット産業の最先端技術が披露されました。世界的なロボ...

...

...

動きながら描くと、2次元の人物になります:リアルタイムインタラクティブビデオスタイル化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

RC4 攻撃: RC4 暗号化アルゴリズムは SSL/TLS を保護できますか?

RC4 暗号化アルゴリズムで最近発見された問題について説明していただけますか? HTTPS 接続の...

消費者がリアルなAIを信頼しない理由

Amazon Alexaのような音声アシスタントの台頭にもかかわらず、人々は本物そっくりのAIに不安...

機械翻訳: Google 翻訳がほぼすべての言語を翻訳できる仕組み

[[345484]]誰もが Google 翻訳をよく知っているはずですが、ほぼすべての既知の言語を私...

マスク氏の「超高速鉄道」の夢は米国で打ち砕かれる!スタースタートアップ企業が破産を発表、10年間受注ゼロ

突然、花形「超高速鉄道」企業ハイパーループ・ワンが倒産し、従業員の大半を解雇し、12月31日に完全に...

深層畳み込みネットワークに基づく自動運転のためのマルチモーダル軌道予測の簡単な分析

道路上で安全かつ効率的に運行するためには、自動運転車は人間の運転手と同じように周囲の交通参加者の行動...

高度な数学に希望があります!ニューラルネットワークは1秒未満で偏微分方程式を解く

タスクの数が増えるにつれて、現在の計算方法を使用して汎用の日常的なロボットを構築するコストは法外なも...

アリコロニーアルゴリズムの理論と実践ガイド

[[170615]]数年前、私が修士号を取得するために勉強していたとき、大学にアリコロニーアルゴリズ...

Baidu UNITが小能科技を支援し、ハイアールグループと提携してインテリジェントクラウド顧客サービスをアップグレード

インテリジェントな顧客サービスの分野は、2018 年に急速な発展を遂げました。企業の人件費を抑制する...

ChatGPTは時間管理の達人になるお手伝いをします

時間管理は、働く人にとって非常に重要です。適切な管理は、仕事の効率と生活の質を大幅に向上させます。タ...

MITの研究チームがスマート着替え補助ロボットの衝突防止アルゴリズムを改良

普通の人にとって、毎日起きて服を着るのはかなり簡単な作業です。しかし、身体に障害のある人にとって、着...