1 つの記事で RNN (リカレントニューラルネットワーク) の基礎を理解する

[[211628]]

1. ニューラルネットワークの基礎

ニューラルネットワークは、あらゆる関数に適合できるブラックボックスと考えることができます。十分なトレーニングデータがあれば、特定の x が与えられれば、目的の y が得られます。構造図は次のとおりです。

ニューラルネットワークモデルをトレーニングした後、入力層に x を与えると、ネットワークを通過した後、出力層で特定の y を取得できます。このように強力なモデルがあるのに、なぜ RNN (リカレントニューラルネットワーク) が必要なのでしょうか。

2. RNN (リカレントニューラルネットワーク) が必要な理由は何ですか?

入力は 1 つずつしか処理できず、前の入力は次の入力とは関係ありません。ただし、一部のタスクでは、シーケンス情報をより適切に処理する能力、つまり、前の入力が後続の入力と関連している能力が必要になります。

たとえば、文章の意味を理解する場合、各単語を個別に理解するだけでは不十分で、これらの単語のシーケンス全体を処理する必要があります。ビデオを処理する場合、各フレームを個別に分析するのではなく、これらのフレームのシーケンス全体を分析する必要があります。

NLP の最も単純な品詞タグ付けタスクを例にとると、「I eat apple」という 3 つの単語は、「I/nn eat/v apple/nn」という品詞でタグ付けされます。

このタスクの入力は次のとおりです。

私はリンゴを食べます（単語を区切った文）

このタスクの出力は次のとおりです。

I/nn eat/v apple/nn （品詞タグ付けされた文）

このタスクでは、もちろん通常のニューラルネットワークを直接使用できます。ネットワークのトレーニングデータ形式は、i -> i/nn、複数の個別の単語 -> 品詞タグ付き単語です。

しかし、文の中では、前の単語が現在の単語の品詞予測に大きな影響を与えることは明らかです。たとえば、apple を予測する場合、前の単語「eat」は動詞であるため、apple が名詞である確率は動詞である確率よりもはるかに高くなることは明らかです。これは、動詞の後に名詞が続くことは一般的ですが、動詞の後に動詞が続くことはまれであるためです。

そこで、同様の問題を解決し、シーケンス情報をより適切に処理するために、RNN が誕生しました。

3. RNN構造

まず、入力層、隠れ層、出力層で構成される単純な再帰型ニューラルネットワークを見てみましょう。

初心者はこの図を理解できるだろうか。とにかく、最初に学習し始めたときは混乱しました。各ノードは入力値を表すのか、レイヤーのベクトルノードのセットを表すのか? 隠しレイヤーはどのようにしてそれ自体に接続されるのか? など。この図は比較的抽象的な図です。

このように理解しましょう。矢印と W の付いた円を削除すると、最も一般的な完全接続ニューラルネットワークになります。

x は入力層の値を表すベクトルです (ここではニューロンノードを表す円は描かれていません)。s は隠し層の値を表すベクトルです (ここでは隠し層にノードが描かれていますが、この層は実際には複数のノードであり、ノードの数はベクトル s の次元と同じであると想像することもできます)。

U は入力層から隠れ層への重み行列、o も出力層の値を表すベクトルです。V は隠れ層から出力層への重み行列です。

それでは、W が何であるかを見てみましょう。再帰型ニューラルネットワークの隠れ層の値 s は、現在の入力 x だけでなく、前の隠れ層の値 s にも依存します。重み行列 W は、今回の入力となる隠れ層の前回の値の重みです。

この抽象グラフに対応する特定のグラフを示します。

上の図から、前の瞬間の隠れ層が現在の瞬間の隠れ層にどのように影響するかが明確にわかります。

上記の図を拡張すると、リカレントニューラルネットワークは次のように描くこともできます。

今ではより明確になっています。ネットワークが時刻 t に入力を受け取った後、隠れ層の値は、出力値はです。重要な点は、の値がだけでなくにも依存するということです。リカレントニューラルネットワークの計算方法は次の式で表すことができます。

式は次のとおりです。

4. まとめ

さて、ここでは RNN の最も基本的な知識ポイントを大まかに説明しました。これにより、RNN を直感的に感じ、なぜ RNN が必要なのかを理解するのに役立ちます。後ほど、その逆導出知識ポイントをまとめます。

***RNN の概要を説明します。

<<: リカレントニューラルネットワークの分析を深く理解する

>>: AI に携わる人が Python を選ぶ理由は何でしょうか?

Meta Princeton は LLM コンテキストの究極のソリューションを提案します。モデルを自律エージェントにして、コンテキストノードツリーを自ら読み取る

1 つの記事で RNN (リカレントニューラルネットワーク) の基礎を理解する

Meta Princeton は LLM コンテキストの究極のソリューションを提案します。モデルを自律エージェントにして、コンテキストノードツリーを自ら読み取る

俳優の顔の交換、AIデート、モザイク除去…2020年のAI界の注目トピックトップ10を振り返る

ディープラーニング + OpenCV、Python でリアルタイムのビデオオブジェクト検出を実現

機械は倫理的な判断を下せるのか？

会話型AI: パンデミック時代の最先端技術

アルゴリズム実践者が知っておくべき TensorFlow のヒント 10 選

メモリを3%～7%削減！ Google がコンパイラ最適化のための機械学習フレームワーク MLGO を提案

なぜ人工知能にはブロックチェーンが必要なのでしょうか?

マイクロソフト、精度を80%以上に向上させるAIコードレビューツールを発表

推薦する

グラフなしの ICLR'24 のための新しいアイデア! LaneSegNet: 車線セグメンテーションを考慮したマップ学習

AIがパートナー探しをお手伝い：Tinder + AI = 仲人？

OpenAI は Google のトップエンジニアを引き抜くために年間 1,000 万ドルという高額な給与を提示している?北京大学のAI博士課程の学生が卒業前に100万ドルのオファーを受ける

「答えない」データセットは盗聴者であり、LLMセキュリティメカニズムの評価はそれに依存する

AutoRLについてまだよく知らないという人は、オックスフォード大学、Google、その他の機関の12人以上の学者がレビューを書いています。

推論性能はH100の10倍！ 21歳の中国人男性がハーバード大学を中退しAI加速チップ「Sohu」を開発、2人の会社の価値は3400万ドル

2年半の訓練を経て、テスラのヒューマノイドロボット「オプティマス2」がオンラインになった。

人工知能アルゴリズムが構造生物学の難問を解決

「新しいインフラ」に求められるAI人材のギャップをどう埋めるか

Baidu World 2018 の開会式で最初の切り札が切られました。Baidu AI City が新しい世界への機関車としてスタートしました!

人工知能はプライバシー侵害につながり、人々は顔スキャンが安全を奪うのではないかと心配している

自動運転業界は2021年に爆発的な成長を遂げるでしょうか?