画像内の文字の教師なし学習

画像内の文字の教師なし学習

[[201526]]

人間の行動に関する研究が最近、Nature の子会社である Nature Human Behavior に掲載されました。この研究では、人間が自然画像内の文字の教師なし学習を通じて、テキストを認識する能力をどのように獲得したかが調査されました。研究者らは、確率的生成モデルを視覚入力に適合させることにより、完全に教師なしの方法で複雑な内部表現の階層を開発する、深層ニューラルネットワークに基づく文字認識のための大規模な計算モデルを提案した。

文字の使用は人類文化の発展における大きな成果です。しかし、抽象的な文字表現が視覚でどのように学習されるかは未解決の問題のままです。 Nature.com に掲載された「文字認識は教師なしのディープラーニングと自然画像の特徴のリサイクルから生まれる」と題する研究レポートで、研究者らは、確率的生成モデルを視覚入力に適合させることで、完全に教師なしの方法でより複雑な内部表現の階層を開発した、ディープニューラルネットワークに基づく文字認識の大規模計算モデルを提案しました。

書かれた記号を学習することで、物体認識のための既存の神経回路が部分的に再利用され、モデルの初期処理段階では自然画像から学習したドメイン一般的な視覚的特徴が活用される一方で、ドメイン固有の特徴は印刷された文字にさらされた上流のニューロンに現れるという仮説が立てられています。

私たちは、これらの高レベル表現が、ノイズで劣化した画像であっても、文字認識に容易にマッピングできることを実証し、人間の観察者によるものと同様の、文字認識に関する幅広い経験的結果の正確なシミュレーションが得られることを示しています。私たちのモデルは、書かれた記号を学習するには、自然な視覚プリミティブを再利用することで、限定されたドメイン固有の適応のみが必要であることを示しており、文字の形状は自然環境の統計的構造に合わせて文化的に選択されるという仮説を裏付けています。

図 1a は研究者によって提案されたモデルの全体的なアーキテクチャを示しています。ネットワークの最下層は、画像ピクセルのグレーレベル活性化としてエンコードされた知覚信号を受信します。網膜と視床で行われる低レベルの視覚処理は、コントラスト正規化のステップとして画像内の局所的な空間関係を捉える、生物学にヒントを得たホワイトニング アルゴリズムによって模倣されます。

図 1 は、ディープラーニングのアーキテクチャと自然画像および印刷文字データのサンプルを示しています。

a、ディープラーニングアーキテクチャ。各ボックスは、ネットワーク内のニューロンの層を表します。ホワイトニング手順に対応する有向矢印はフィードフォワード処理を導入し、無向接続は教師なし生成学習によって活用される双方向処理を示します。線形読み出し層に対応する有向矢印は、教師あり学習を導入します。文字処理に関与する対応する脳ネットワークが右側に示されています(LGN、背外側膝状体、V1、一次視覚皮質、V2、二次視覚皮質、V4、線条体外視覚皮質、OTS、側頭後頭溝)。

b、右側に示されているように、複数の小さなパッチ(40 × 40 ピクセル)を含む自然画像。c、さまざまなフォント、スタイル、サイズ、位置関係を使用して作成された、研究者のデータセット内の印刷された文字のサンプル。

研究者たちは、最初の内層(暗黙的)ニューロンにエンコードされた潜在的な特徴セットを H1 と呼んでいます。これは、初期の皮質視覚(V1 および V2)で発生する処理の種類を模倣しています。

図 2 は、モデル内で新たに出現したニューロン受容野、表現選択、および文字認識精度を示しています。

a、H1 層のニューロン サンプルの受容野。グレースケールは接続の強さを反映しています (黒: 強い、抑制性接続、白: 強い、興奮性接続)。

b、H2層の隠れニューロンのサンプルの受容野。

c および d、H1 層 (c) および H2 層 (d) におけるさまざまな刺激に対する平均フィードバック (活性化基準)。

e、ノイズ レベルの関数としての異なる表現レイヤーでの読み取り精度 (ガウス ノイズの標準偏差)。f、ノイズのない刺激サンプルと、同様に約 50% のパフォーマンスを示すノイズのある刺激サンプル。

図 3 は人間の心理物理学研究のシミュレーションです。

a、モデル混同行列とさまざまな経験的混同行列との間のピアソン相関(すべてP < 0.001)。すべての経験的マトリックス間の平均相互相関は 0.56 であることに注意してください。b、H2 表現の階層的クラスタリングによって取得されたデンドログラム。これは、文字間の視覚的な類似性がネットワークの内部表現で保持されていることを示しています。接続バーの高さはユークリッド距離を示します (バーが小さいほど類似性が高いことを示します)。

c、各フォントの平均周囲の複雑さと、ノイズ劣化刺激の対応する平均文字認識精度との間の負の相関。

d、平均的な文字の混乱度によってランク付けされたすべてのフォントのリスト。混乱が最も少ない (上) から最も混乱が多い (下) まで。

図 4 は、知覚チャネルを介した文字認識の空間周波数分析です。

a、b、ガウスノイズ(RMSコントラスト= 0.2)と背景(明るさ= 0.2)に重ね合わせた、ローパス(a)とハイパス(b)フィルタリングされた文字のサンプル。

c、フィルター タイプに応じた H2 読み出し感度比較関数。各文字の頻度は 0.8 ~ 6.6 の範囲です (両軸とも対数)。変調ノイズの代わりに入力信号を直接フィルタリングしたため、ローパス フィルタリングとハイパス フィルタリングに対応する曲線は、ローパス ノイズとハイパス ノイズに対応する曲線とは逆になっていることに注意してください。

<<:  ロボットの開発について冷静に考える:ロボットは本当にあなたの仕事を奪うのでしょうか?倫理的価値観の再構築のきっかけとなるか?

>>:  TensorFlow を使用してリカレント ニューラル ネットワークを構築、トレーニング、改善する方法

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

ソフトウェア配信における機械学習の活用方法

現代のほとんどのソフトウェア チームにとって、ソフトウェアの配信は継続的なプロセスです。ソフトウェア...

...

2019年のAI研究開発のホットスポットのレビュー

人工知能技術を継続的に改善することで、より優れたインテリジェントな世界を創造することができます。 2...

OpenAIが安全チームを設置 準備: AIのリスクを評価し、外部からの悪用を防ぐ

OpenAIは10月27日、汎用人工知能(AGI)によって引き起こされる可能性のある壊滅的なリスクを...

産業用AIoTが「新たな人気」となった4つの主な要因

最近発表された産業用人工知能および人工知能市場レポート 2021-2026 のデータによると、わずか...

...

企業が募集している最も需要の高いAI関連職種トップ11

生成 AI は、ほぼすべての業界で急速に導入され、ビジネス界の状況を急速に変えつつあります。企業は、...

マクロン仏大統領「人工知能は制限されなければ西側諸国の民主主義を完全に破壊するだろう」

3月29日、フランスのエマニュエル・マクロン大統領がパリで演説を行った。ホーキング博士はかつて、人...

EUが新たなAI規制を導入

欧州委員会は、ヨーロッパを信頼できる人工知能(AI)の世界的な中心にすることを目指して、2021年4...

虐殺後に行方不明になった親族をAIで探す! Googleのエンジニアが第二次世界大戦の70万枚以上の古い写真を識別できる顔認識プログラムを開発

AI顔認識の分野で新たなビジネスが開拓されているのでしょうか?今回の課題は、第二次世界大戦の古い写真...

ChatGPTはユーザーがペイウォールを回避できないようにBing検索へのアクセスを停止

7月5日のニュース、6月28日、OpenAIのチャットボットChatGPTは、MicrosoftのB...

一般的な基本的なソートアルゴリズムを今回から理解しましょう

[[383742]]この記事はWeChatの公開アカウント「Beta Learns JAVA」から転...

...

ChatGPTへのチップは本当に効果があります! 10元や10万元は大きな効果がありますが、1セントでは増えるどころか減るだけです。

ChatGPT にチップを渡す「ふり」をすると、ChatGPT の働きが悪くなることを知らない人が...