画像内の文字の教師なし学習

[[201526]]

人間の行動に関する研究が最近、Nature の子会社である Nature Human Behavior に掲載されました。この研究では、人間が自然画像内の文字の教師なし学習を通じて、テキストを認識する能力をどのように獲得したかが調査されました。研究者らは、確率的生成モデルを視覚入力に適合させることにより、完全に教師なしの方法で複雑な内部表現の階層を開発する、深層ニューラルネットワークに基づく文字認識のための大規模な計算モデルを提案した。

文字の使用は人類文化の発展における大きな成果です。しかし、抽象的な文字表現が視覚でどのように学習されるかは未解決の問題のままです。 Nature.com に掲載された「文字認識は教師なしのディープラーニングと自然画像の特徴のリサイクルから生まれる」と題する研究レポートで、研究者らは、確率的生成モデルを視覚入力に適合させることで、完全に教師なしの方法でより複雑な内部表現の階層を開発した、ディープニューラルネットワークに基づく文字認識の大規模計算モデルを提案しました。

書かれた記号を学習することで、物体認識のための既存の神経回路が部分的に再利用され、モデルの初期処理段階では自然画像から学習したドメイン一般的な視覚的特徴が活用される一方で、ドメイン固有の特徴は印刷された文字にさらされた上流のニューロンに現れるという仮説が立てられています。

私たちは、これらの高レベル表現が、ノイズで劣化した画像であっても、文字認識に容易にマッピングできることを実証し、人間の観察者によるものと同様の、文字認識に関する幅広い経験的結果の正確なシミュレーションが得られることを示しています。私たちのモデルは、書かれた記号を学習するには、自然な視覚プリミティブを再利用することで、限定されたドメイン固有の適応のみが必要であることを示しており、文字の形状は自然環境の統計的構造に合わせて文化的に選択されるという仮説を裏付けています。

図 1a は研究者によって提案されたモデルの全体的なアーキテクチャを示しています。ネットワークの最下層は、画像ピクセルのグレーレベル活性化としてエンコードされた知覚信号を受信します。網膜と視床で行われる低レベルの視覚処理は、コントラスト正規化のステップとして画像内の局所的な空間関係を捉える、生物学にヒントを得たホワイトニングアルゴリズムによって模倣されます。

図 1 は、ディープラーニングのアーキテクチャと自然画像および印刷文字データのサンプルを示しています。

a、ディープラーニングアーキテクチャ。各ボックスは、ネットワーク内のニューロンの層を表します。ホワイトニング手順に対応する有向矢印はフィードフォワード処理を導入し、無向接続は教師なし生成学習によって活用される双方向処理を示します。線形読み出し層に対応する有向矢印は、教師あり学習を導入します。文字処理に関与する対応する脳ネットワークが右側に示されています（LGN、背外側膝状体、V1、一次視覚皮質、V2、二次視覚皮質、V4、線条体外視覚皮質、OTS、側頭後頭溝）。

b、右側に示されているように、複数の小さなパッチ（40 × 40 ピクセル）を含む自然画像。c、さまざまなフォント、スタイル、サイズ、位置関係を使用して作成された、研究者のデータセット内の印刷された文字のサンプル。

研究者たちは、最初の内層（暗黙的）ニューロンにエンコードされた潜在的な特徴セットを H1 と呼んでいます。これは、初期の皮質視覚（V1 および V2）で発生する処理の種類を模倣しています。

図 2 は、モデル内で新たに出現したニューロン受容野、表現選択、および文字認識精度を示しています。

a、H1 層のニューロンサンプルの受容野。グレースケールは接続の強さを反映しています (黒: 強い、抑制性接続、白: 強い、興奮性接続)。

b、H2層の隠れニューロンのサンプルの受容野。

c および d、H1 層 (c) および H2 層 (d) におけるさまざまな刺激に対する平均フィードバック (活性化基準)。

e、ノイズレベルの関数としての異なる表現レイヤーでの読み取り精度 (ガウスノイズの標準偏差)。f、ノイズのない刺激サンプルと、同様に約 50% のパフォーマンスを示すノイズのある刺激サンプル。

図 3 は人間の心理物理学研究のシミュレーションです。

a、モデル混同行列とさまざまな経験的混同行列との間のピアソン相関（すべてP < 0.001）。すべての経験的マトリックス間の平均相互相関は 0.56 であることに注意してください。b、H2 表現の階層的クラスタリングによって取得されたデンドログラム。これは、文字間の視覚的な類似性がネットワークの内部表現で保持されていることを示しています。接続バーの高さはユークリッド距離を示します (バーが小さいほど類似性が高いことを示します)。

c、各フォントの平均周囲の複雑さと、ノイズ劣化刺激の対応する平均文字認識精度との間の負の相関。

d、平均的な文字の混乱度によってランク付けされたすべてのフォントのリスト。混乱が最も少ない (上) から最も混乱が多い (下) まで。

図 4 は、知覚チャネルを介した文字認識の空間周波数分析です。

a、b、ガウスノイズ（RMSコントラスト= 0.2）と背景（明るさ= 0.2）に重ね合わせた、ローパス（a）とハイパス（b）フィルタリングされた文字のサンプル。

c、フィルタータイプに応じた H2 読み出し感度比較関数。各文字の頻度は 0.8 ～ 6.6 の範囲です (両軸とも対数)。変調ノイズの代わりに入力信号を直接フィルタリングしたため、ローパスフィルタリングとハイパスフィルタリングに対応する曲線は、ローパスノイズとハイパスノイズに対応する曲線とは逆になっていることに注意してください。

<<: ロボットの開発について冷静に考える：ロボットは本当にあなたの仕事を奪うのでしょうか？倫理的価値観の再構築のきっかけとなるか?

>>: TensorFlow を使用してリカレントニューラルネットワークを構築、トレーニング、改善する方法