画像分類を40ナノ秒で完了、ニューラルネットワークを内蔵した画像センサーがNatureに掲載

画像分類を40ナノ秒で完了、ニューラルネットワークを内蔵した画像センサーがNatureに掲載
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI チップで他に何ができるでしょうか? Nature に掲載された研究は新たなインスピレーションをもたらします。

これまで、画像分類はいくつかのステップに分かれていました。まずセンサーを使用して画像のアナログ信号を収集し、次にそれをデジタル信号に変換し、最後にコンピューターに渡して処理していました。このプロセス全体は、目が画像を脳に送信するのと同じように、エネルギーを大量に消費し、時間がかかります。

想像してみてください。もし人間の目が脳を煩わせることなく画像を直接処理できたら、視覚画像情報の処理速度は大幅に向上するのではないでしょうか。

今日、ネイチャー誌に掲載されたこの新しい研究は、「目」が画像を直接処理できるようにするという点で画期的です。そして、そのフィードバックは非常に衝撃的なものでした。

新しい感光素子を使用することで、画像の分類はわずか40 ナノ秒で完了します。これは、コンピューターに渡して処理するよりも数十万倍高速です。

信じられないですね。

フォトダイオードネットワーク

研究チームは、その核となるチップ上にフォトダイオード ネットワークを構築し、感光性材料として 2D 半導体の二セレン化タングステン (WSe2) を選択しました。

単一タングステン二セレンフォトダイオードの概略図

フォトダイオード アレイは、均一性、調整性、直線性に優れた 27 個の検出器で構成され、ピクセル サイズが約 17×17μm の 3×3 イメージング アレイに配置されています。各ピクセルは 3 つのタングステン ジセレン化フォトダイオード (サブピクセル) で構成され、ゲート電圧によって光に対する応答性を調整できます。

つまり、印加電圧を変化させることで半導体の光に対する反応を調整し、各ダイオードの感度を調整することができます。

実際には、これにより光電子センサー ネットワークがニューラル ネットワークに変換され、光センシングとニューロモルフィック コンピューティングが組み合わされて、単純な計算タスクを実行できるようになります。

ダイオードの感度を変更することは、ニューラル ネットワークの重みを変更することと同じです。

センサーに重量をかける

他のニューラル ネットワークとは異なり、このシステムの重みはコンピューターのメモリやハード ドライブに保存されるのではなく、イメージ センサーに直接統合されます。

実験では、タングステンセレンフォトダイオードで作られた特殊なゲート回路を使用しました。その特別な機能は、ニューラル ネットワークのトレーニングに相当する変調が可能であることです。

外部バイアス電圧が変化すると、ダイオードの光に対する感度も変化します。これは、ネットワークのトレーニング結果をセンサー側に直接配置することと同じです。

従来のニューラル ネットワークでは、トレーニングの重みを外部メモリに保存し、回路を通じて各検出装置に送信していました。

コンピュータのメモリと同様に、電源を切ると保存された情報は失われます。

この装置セットは、停電後でも重量情報を保存できるハードドライブのようなものです。

研究者らは、変調電極、つまりフローティングゲートを窒化ホウ素絶縁層に埋め込みました。まず、酸化アルミニウム絶縁層のゲートに電圧を印加し、その後外部電圧を除去しました。

フローティング ゲートは、外部バイアス電圧が変更されるまで、次の 2300 秒間、フォトダイオードの変調を維持できます。

研究者たちはこのアプローチを使用して、分類器とオートエンコーダの 2 種類のニューラル ネットワークを実装しました。

分類器では、フォトダイオード アレイがオンチップ センサーおよびオフチップの非線形活性化関数と連携して動作します。このタイプのニューラル ネットワークは、入力画像 P をさまざまな出力カテゴリ y に分類できる教師あり学習アルゴリズムを表します。

実際の効果はどうですか?彼らは、3×3 ピクセルの「シンプルな」文字のセット、つまり n、v、z を作成しました。

画像センサーがトレーニングされた後は、対応する回路の電流が 0 であるかどうかを測定するだけで、それがどの文字であるかがわかります。

時間の経過に伴う電圧変化のグラフから、センサーが画像を受信して​​から 40ns 後に、n 入力と v 入力によって生成される電圧が大きく異なり始め、約 100ns 後にその差が最大に達することがわかります。

2 番目のタイプのニューラル ネットワークは、教師なしトレーニング プロセスで入力画像 P の効率的な表現を学習できるオートエンコーダです。これはデコーダーと組み合わせて使用​​され、一度トレーニングされると、出力で画像を再現できるようになります。

エンコーダはフォトダイオードアレイ自体によって形成され、デコーダは外部の電子機器によって形成されます。

この過程で画像伝送データが圧縮されます。

大きな可能性を秘めているが、さらなる研究がまだ必要である

2つの異なる画像を区別するのにかかる時間はわずか40ナノ秒であり、AI視覚は人間の脳の効率に一歩近づいているようです。

しかし、この画期的な新技術が実用化されるまでには、まだ長い道のりがあることに留意すべきです。

まず、フォトダイオードアレイは 27 個の検出器のみで構成されているため、最大 3×3 の画像しか処理できません。

第二に、自律運転やロボット工学に真に適用するには、ビジョン システムが広い視野で 3 次元の動画像やビデオをキャプチャする必要があります。現在、この技術は 3D 視覚情報を 2D に変換して処理するため、動きの情報と奥行きが失われます。

画像センサーアレイの平らな形状も、広角カメラの機能を制限する要因となります。

さらに、Nature によると、論文で説明されている装置は薄暗い場所での撮影が難しいという。さらに、生物学的ニューラル ネットワークでの操作ごとに消費されるエネルギーが 10-15 ~ 10-13 ジュールであるのに対し、その設計には高電圧と高電力が必要です。

技術的な観点から見ると、チップに使用される薄い半導体は、現時点では大規模に生産および処理することが困難です。

さらに、イメージセンサーは取得機能と計算機能を組み合わせ、アナログからデジタルへの変換を削減しますが、外部回路には依然として固有の遅延問題があり、システム全体の待機時間に影響を与えます。

しかし、まだ研究の余地は大きいものの、センサー内のコンピューティングに関する関連研究は、AI ハードウェアのさらなる発展を促進してきました。この研究のアイデアはコンピュータービジョンに限定されず、聴覚や触覚などの他の物理的入力にも拡張できます。

その他の試み

画像情報の高速処理に対する要求はますます高まっており、多くの科学者が入力側で画像を処理する方法を研究しています。

最近、オランダとアメリカの学者たちは、センサー側で直接画像を処理する方法も発明しました。

ただし、これらは画像の分類を出力するのではなく、ターゲット検出とセマンティックセグメンテーションに重要な出力画像のエッジを出力します。

彼らはセンサーの前に「メタサーフェス」を追加しました。これは、厚さ 0.5 ミリメートル未満の薄いサファイアのシートで、厚さ 206 ナノメートル、高さ 142 ナノメートル、間隔 300 ナノメートルの長いシリコンのストリップでコーティングされています。

CCD 感光チップの表面に配置すると、メタサーフェスはレンズのように機能し、光が急角度でのみ当たるようにし、入射角が非常に小さい光は遮断します。

この画像は、さまざまな光波の組み合わせを特徴としており、光波によって運ばれる他の詳細を除去し、モノクロの背景ではなく、人物の顔のエッジなどのより鮮明な要素のみを残します。

全体の処理にはわずか 150 ナノ秒しかかかりませんが、コンピューターで処理するには数ミリ秒かかります。この差は 4 桁にもなります。

研究チーム

最後に、オーストリアのウィーン工科大学の研究チーム、Unterrainerグループを紹介したいと思います。

[[317562]]

論文の第一著者であるルーカス・メネル氏は、電気工学とフォトニクスの博士課程の学生であり、MIT で客員研究員として学び、量子フォトニクスを研究しています。

[[317563]]
ルーカス・メネル

論文のもう一人の責任著者は、ウィーン工科大学の准教授であるトムス・ミュラー氏です。トーマス・ミュラー氏がサッカーの腕前が優れているかどうかは不明ですが、2D材料科学の分野では、ミュラー教授の研究は基礎研究、光電子デバイス、電子集積回路、光子集積回路などに及び、目覚ましい業績も残しています。

[[317564]]
トムス・ミューラー

論文アドレス: https://www.nature.com/articles/s41586-020-2038-x

<<:  ハリー・シャムが清華大学の記録を破り、ビデオを通じて任命された史上初の教授となり、説明可能なAIを訴える

>>:  近い将来、人工知能によって劇的に変化する11の業界

ブログ    

推薦する

自動運転はまだ遠いが、スマートコックピットはすでに存在している

[51CTO.com からのオリジナル記事] スマートカーといえば、真っ先に思い浮かぶのは自動運転で...

...

...

ディープラーニングのトレーニング中に GPU の温度が高すぎますか?すぐにクールダウンするには、以下の数行のコマンドを入力してください

[[197022]]新しく購入した水冷なしのパブリック版GPUの温度は、フル負荷で稼働すると室温から...

テスラロボットに人間の脳意識が搭載される?マスク氏独占インタビュー:AIがミスを犯すことへの恐怖

いつも衝撃的な発言をするマスク氏がまたもや発言した。 最近、Insiderの親会社であるAxel S...

...

L4自動運転の脆弱性: 認識アルゴリズムは人工の3D悪意のある障害物を回避できない可能性がある

最近、ある調査により、レベル4自動運転で使用されるマルチセンサーフュージョンベースの認識技術にセキュ...

データが増えるほど、AIの意思決定モデルは脆弱になる

データは人工知能システムを構築するために必要な重要なインフラストラクチャです。データは、AI システ...

このAIはレディー・ガガ風にベートーベンの音楽を演奏することができ、ネットユーザーは楽しんで遊んでいる。

編集者注: OpenAI は数日前に突然 Twitch でライブ放送を開始しました。これまで、Ope...

Daguan 推奨アルゴリズムの実装: 協調フィルタリングのアイテム埋め込み

レコメンデーションシステムの本質は、ユーザーのニーズが不明確な場合の情報過多の問題を解決し、ユーザー...

人工知能の未来は人間・機械・環境のシステム知能である

軍事情報は戦争と同様、不確実性の多い霧です。予測不可能で、予測不可能です。現在の人工知能の発展傾向か...

AI対詐欺: フィッシング戦術の新時代の幕開け

社会が人工知能の時代に入り、機械が生活のほぼあらゆる側面に浸透する中、攻撃者が AI をどの程度悪用...

教室への人工知能の導入は論争を巻き起こしています。それは教育に役立つのでしょうか?境界はどこにあるのでしょうか?

「人工知能+スマート教育」が人気を集めています。しかし、生徒の表情を捉える「スマートアイ」や「顔ス...

...