CNNとRNNの比較と組み合わせ

CNNとRNNの比較と組み合わせ

CNNとRNNはディープラーニングのほぼ半分を占めているので、この記事ではCNN+RNNとさまざまな組み合わせの比較に焦点を当てます。

1. CNNとRNNの比較

1. CNN畳み込みニューラルネットワークとRNNリカレントニューラルネットワークの直感的な図

2. 類似点:

  • 従来のニューラル ネットワークの拡張。
  • 順方向計算により結果が生成され、逆方向計算によりモデルが更新されます。
  • ニューラル ネットワークの各層には複数のニューロンが水平方向に共存でき、複数の層のニューラル ネットワークを垂直方向に接続できます。

3. 相違点

  • CNN 空間拡張、ニューロン、特徴畳み込み、RNN 時間拡張、ニューロン、複数時間出力計算
  • RNNは時間的に連続した状態の出力を記述するために使用でき、記憶機能を持っていますが、CNNは静的な出力に使用されます。
  • CNN は 100 以上の深度を高度に、RNN は深度を限定

2. CNN+RNNの組み合わせ

1. RNN 文生成と画像注釈のための CNN 特徴抽出。

2. CNN コンテンツ分類ビデオ分類のための RNN 特徴抽出。

3. 対話質問応答と画像質問応答のための CNN 特徴抽出。

3. 具体的な応用

1. 画像注釈

基本的な考え方:

  • 目標はラベル付き文を生成することです。これは文生成タスクです。 LSTM?
  • 記述されているオブジェクトには、画像情報、画像情報表現、CNN が多数ありますか?

CNN ネットワーク内の完全に接続されたレイヤーの特徴は画像を記述し、その特徴は LSTM 入力と結合されます。

具体的な手順:

(1)モデル設計特徴抽出

完全に接続された層の特徴は元の画像を記述するために使用される

LSTM 入力: 単語 + 画像特徴; 次の単語を出力します。

(2)モデル設計データの準備

  • 画像CNN特徴抽出
  • 画像注釈はWord2Vectベクトルを生成する
  • トレーニング データを生成します: 画像の特徴 + n 番目の単語ベクトル: n+1 番目の単語ベクトル。

(3)モデルのトレーニング:

  • 転移学習、CNN機能、文章機能を使用して既存のモデルを適用する
  • 最終的な出力モデルはLSTMであり、トレーニングプロセスのパラメータ設定は、勾配クリッピング、学習率調整(adaptivelearning)です。
  • トレーニング時間は非常に長いです。

(4)モデルの動作:

  • CNN特徴抽出
  • CNN 機能 + 文頭、単語ごとの予測

2. ビデオ行動認識:

ビデオでは何が起こっているのでしょうか?

一般的な方法の概要:

(1)CNN特徴融合のためのRNN:

  • CNN特徴抽出
  • LSTM判定
  • 複数の認識結果の分析。

機能によって出力が異なります。

または、すべての機能を 1 つの出力として出力します。

(2)RNNはCNNの特徴スクリーニング+融合に使用される:

  • すべてのビデオ画像に特定の分類情報が含まれているわけではない
  • RNNはどのフレームが有用かを判断するために使用される
  • 便利な画像機能の融合。

(3)物体検出のためのRNN:

  • CNNはターゲット候補領域を直接生成する
  • LSTMは候補領域の融合(隣接する瞬間の位置の近似)を生成する
  • 最終的な正確な位置を決定します。

(4)複数モデルの統合:アプリケーションでは、最良の結果を得るために、複数のモデルのアンサンブルがよく使用されます。

<<:  機械学習アルゴリズムが NDA の法的分析テストで 20 人の弁護士に勝利

>>:  マイクロソフトの調査:英国の従業員のほぼ半数がロボットに仕事が置き換えられることを懸念

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

3Dマップナビゲーションに頼らず、自動運転技術が新たな分野に進出

今日の自動運転車の技術は、ナビゲーションに極めて詳細な 3D マップに大きく依存していますが、そのほ...

事前学習済みのNLPモデルにおける性別相関の測定

自然言語処理 (NLP) はここ数年で大きな進歩を遂げており、BERT、ALBERT、ELECTRA...

避けるべきよくあるコーディングミス

人は誰でも間違いを犯す。しかし、開発者が犯す間違いの多くは回避可能です。この記事で説明した一般的な間...

地図メーカーの次の戦い:AI戦争

新しいインフラの下で、産業インターネット、5G基地局建設、都市間高速鉄道と都市間軌道交通、新エネルギ...

iOS の位置決めと座標系アルゴリズム

この話題を始める前に、もう一度皆さんの無知を解明させてください。私が解明したいのは、座標系についての...

AI時代、私たちは将来の仕事にどう備えればいいのでしょうか?

将来のテクノロジーとそれによって可能になるかもしれない新しいタイプの仕事について多くのことが書かれて...

通信 AI 市場は 2031 年に 388 億ドルに達すると予想されます。5G/6G と AI の統合により、さまざまなメリットがもたらされます。

4G と 5G の世界的な展開は商用サービスの進歩よりも速く、6G は 2030 年までに登場する...

製品の価格については心配しないでください。AI が教えてくれます!

[[341780]] ▲写真:ゲッティベインが 1,700 人以上のビジネス リーダーを対象に実施...

MITとHKUは、Transformerを超える精度を持つ物理モデルに基づく視覚推論フレームワークを提案

[[437809]]動的視覚推論、特にオブジェクト間の物理的な関係についての推論は、コンピューター ...

携帯電話を紛失し、電話をかけても誰も応答しません。顔認識機能は非常に役立ちます。

揚子晩報は4月12日(蒋桂東特派員、範牧暁子記者)に、揚州市在住の張さんがオランダ花海風景区を訪れた...

自動運転分野における機械学習アルゴリズムの応用に関する包括的なレビュー

機械学習は、車内外のセンサーからのデータを融合して、運転者の状態を評価し、運転シナリオを分類するため...

時速22キロのスピードと50キロの荷重で、四足の車輪付きロボット「スイスマイル」は変形することを学んだ。

テスラと「レース」を敢行する四輪ロボットを見たことがありますか?以下に示すように、かなり高速であるよ...

...

...

機械学習が失敗したらどうするか: 計算学習理論

導入顔認識モデルを構築し、検証セットを使用してテスト セットでの実験のパラメータを調整しているとしま...