LeCunがまた人気です! 1993年に公開された初のテキスト認識技術を実演したCNNのビデオがRedditのホットリストでトップに

LeCunがまた人気です! 1993年に公開された初のテキスト認識技術を実演したCNNのビデオがRedditのホットリストでトップに

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

畳み込みニューラル ネットワークについてよくご存知かもしれません。

これはディープラーニングの古典的なアルゴリズムの 1 つです。1990 年代以降、コンピューター ビジョンや自然言語処理の分野で驚異的な成果を継続的に達成してきました。

畳み込みニューラル ネットワーク (CNN) は、1993 年に AT&T ベル研究所でテキスト認識のデモンストレーションに初めて使用されました。デモンストレーターは、「CNN の父」として知られる Yann LeCun でした。

今日、その年のルカンのデモビデオがネットユーザーによって再び発掘され、すぐにRedditで話題となり、1,000件近くのいいねを獲得した。

一部のネットユーザーは、このデモンストレーション以前は、汎用人工知能(AGI)やその他の難しい問題と同様に、この種のテキスト認識は実現不可能だと考えられていたとコメントした。

多くのネットユーザーも、彼らは本物のエンジニアであり、彼らに敬意を表しているというメッセージを残しました。

このビデオは、世界初のテキスト認識用畳み込みニューラルネットワークを示していると報告されており、これはCNNがコンピュータービジョンや自然言語処理で広く使用されるための重要な始まりです。

CNN: 手書き数字認識タスク

1990 年代初頭、ルカン氏は当時世界で最も権威のある研究機関の 1 つであったベル研究所に入社しました。 32 歳のとき、彼と彼の同僚は、典型的なエンドツーエンドの画像認識システムである手書きの数字を読み取って認識するシステムを作成しました。

デモビデオでは、システムが手書きの番号 210-949-4038 を迅速かつ正確に認識しました。これはベル研究所のルカン氏の電話番号だと言われています。

さらに、1990 年代には非常に珍しかった、より集中的で多様なデジタル認識タスクの処理においても優れたパフォーマンスを示しました。

[[375224]]

ビデオには、実験に参加した研究者として、研究所所長のリッチ・ハワード氏とコンピューター専門家のドニー・ヘンダーソン氏も登場している。

[[375225]]

このコードは主に NCR (National Cash Register Coporation) の小切手読み取りシステムへの応用を目的として開発されたものと理解されています。

一般的に、数値計算能力の限界や学習サンプルの不足、また同時期にサポートベクターマシン (SVM) に代表されるカーネル学習法が登場したことにより、この時期にさまざまな画像処理問題向けに設計された畳み込みニューラルネットワークは、研究室の研究段階にとどまりました。

しかし、1998 年に Yann LeCun 氏とその協力者は、より完全な畳み込みニューラル ネットワーク LeNet-5 を共同で構築し、手書き数字認識の問題でさらなる成功を収めました。 1990 年代後半までに、このシステムは米国における小切手識別の 10% ~ 20% を処理していました。

実際、LeNet-5 ニューラル ネットワークは、1989 年に LeCun によって提案されました。 LeNet の初期バージョンには、2 つの畳み込み層、2 つの完全接続層、合計 60,000 個の学習パラメータが含まれていました。これは TDNN や SIANN よりもはるかに大きく、構造的には現代の畳み込みニューラル ネットワークに非常に近いものでした。

1989 年の論文「バックプロパゲーションとニューラル ネットワークを使用した手書き数字の認識」で、LeCun がネットワーク構造につ​​いて論じる際に初めて「畳み込み」という言葉を使用したことは特筆に値します。「畳み込みニューラル ネットワーク」が誕生し、LeCun は後に業界で「CNN の父」と呼ばれるようになりました。

MNIST データセット

この実験に基づいて、LeCun 氏は古典的な手書きデータセット MNIST も作成しました。これは、機械学習、パターン認識、その他のタスクの研究に使用される高品質のデータベースです。Hinton 氏はこれを「機械学習界のミバエ」と呼んでいます。

MNIST 手書き数字画像データセットは、20 年以上にわたって機械学習のベンチマークとして使用されてきました。トレーニング セットとテスト セットが含まれています。トレーニング セットには 60,000 個のサンプルが含まれ、テスト セットには 10,000 個のサンプルが含まれます。各サンプルは 28 x 28 ピクセルのグレースケールの手書き数字画像です。

MNISTデータセットには、さまざまな(0〜9)手書き数字が含まれています。

MNIST データ セットは NIST データベースから抽出されると報告されています。トレーニング データは国勢調査局の従業員 2,000 人の手書きから取得され、テスト データは大学生 500 人の手書きから取得されます。テスト セットのサンプル数が少ないため、MNIST に意味のある信頼区間を提供することは困難です。 2019年6月、Facebookとニューヨーク大学の研究者らはデータセットを拡張・再構築し、テストセットに5万個の新しいサンプルを追加しました。これに応えて、LeCun 氏は、この新しいデータセットによって MNIST が生まれ変わり、復元され、拡張されたとリツイートしました。

現在、データセットには次の 4 つのファイルが含まれています。

手書き数字認識は、コンピューター ビジョンの分野における基本的なプロジェクトであり、機械学習を始めるための伝説的な「Hello World」に相当します。そのため、MNIST データセットも開発者に広く使用されています。

ディープラーニングの父、ヤン・ルカン

LeCun 氏は 1998 年以来、ディープラーニングの分野に深く携わり、OverFeat 検出フレームワーク、ステレオ マッチング用の CNN、DropConnect メソッドなど、合計引用数が 10 万回を超える重要な論文を多数発表しています。

2015年、彼はモントリオール大学のヨシュア・ベンジオ教授、グーグルの副社長兼エンジニアリング研究者のジェフリー・ヒントン氏と共同で「ディープラーニング」に関するレビュー論文を執筆し、Nature誌に掲載された。

ルカン氏はCNNの重要な推進者です。 2018 年、ヤン氏は「CNN (畳み込みニューラル ネットワーク) にバックプロパゲーション アルゴリズムを導入し、重み共有やプーリングなどの技術を発明して、CNN を真に使いやすくした」として、ACM (Association for Computing Machinery) から 2018 チューリング賞を受賞しました。

[[375226]]

ACM は受賞者を発表する際に、3 人のコンピューター科学者を「ディープラーニング革命の父」と呼び、「3 人の科学者が成し遂げた概念的および工学的な飛躍的進歩により、ディープ ニューラル ネットワークはコンピューティングの重要な部分となった」と指摘しました。

チューリング賞は「コンピュータサイエンスのノーベル賞」として知られ、最古の人工コンピュータモデルである「チューリングマシン」を発明した英国の数学者アラン・チューリングにちなんで名付けられました。彼はまた、ヨシュア・ベンジオとジェフリー・ヒントンとともにこの賞を共同受賞した。

ヒントン氏はトロント大学で博士課程を学んでいた時のルカン氏の指導者でもあったことは特筆に値します。ヒントン氏は、機械学習、記憶、知覚、記号処理にニューラル ネットワークを使用する方法を研究しています。当時、ディープニューラルネットワークというテーマはニッチな分野であり、ルカン氏はニューラルネットワークの研究においてヒントン氏から多大な指導と援助を受けました。

さらに、LeCun 氏は IEEE ニューラル ネットワーク パイオニア賞 (2014 年) と IEEE PAMI 優秀研究者賞 (2015 年) も受賞しています。彼は現在、ニューヨーク大学のデータサイエンスセンターの創設ディレクターであり、Facebook の副社長兼主任人工知能科学者です。

2020年のAAAI協会で、LeCun氏はAIの将来について「自己教師あり学習」と題した基調講演を行いました。同氏は、ディープラーニングはボトルネックに達しており、自己教師あり学習こそがAIの明るい未来であると信じています。同氏は、ディープラーニングの手法は自動運転、言語翻訳、チャットボットなどに応用できるものの、「真の」人工知能を生み出すことはできないと述べた。

自己教師学習は人間の学習プロセスに近いため、今後の開発トレンドとなるでしょう。

<<:  早期がん検査、医療AI:2020年の医療の10の進歩は注目に値する

>>:  アルゴリズムが消費者を「計算」するのを防ぐにはどうすればよいでしょうか?専門家:対策のためのアルゴリズムの研究は可能

ブログ    

推薦する

...

自律型 AI エージェント: 未来の生産性エンジン

翻訳者 | 崔昊レビュー | Chonglouまとめこの記事では、タスクを自ら作成し、優先順位を付け...

10x Nvidia GPU: Google TPUスタートアップチームによる、モデル固有の大型チップが一夜にして有名に

モデルが GPT-3.5 のように数千億の規模に達すると、トレーニングと推論のための計算能力は一般的...

AI 開発者の高額給与は魅力的すぎるでしょうか?国内の開発者がAIに変革するためのガイドをぜひご利用ください

著者注: AI関連のニュースを閲覧すると、「高給」「年収100万ドル」など、非常に魅力的な言葉が頻繁...

...

企業が大型モデルに「参入」する場合、なぜ大手メーカーによる生産が推奨されるのでしょうか?

GPT-3.5が海外で発売されてからまだ1年も経っていないし、文心易言が国内で発売されてからまだ半...

ロボット工学、自動化、AIでイノベーションを加速

デジタル変革の結果、テクノロジーは長年にわたってどのように変化してきましたか?アクセンチュアが第 2...

なぜスパムメールがこんなに多いのでしょうか? Redditの男が機械学習の残酷な現実を暴露

近年、AIのトレンドは高まるばかりで、毎年大規模な機械学習カンファレンスが盛んに開催されており、誰も...

人工知能技術とアプリケーションを徹底的に分析し、人工知能産業チェーンを効果的に理解します。

近年、モノのインターネット、ビッグデータ、人工知能などのホットなテクノロジーワードが毎日テクノロジー...

マイクロソフトCEOナデラ氏:AIはルールを変えるインターネットの波のようなもの

8月18日、マイクロソフトが人工知能(AI)技術の研究開発に注力し、OpenAIに100億ドル以上を...

なぜ人工知能は過大評価されているのでしょうか?

他の新しいテクノロジーと同様に、AI もハイプ サイクルと呼ばれる段階を経ます。それらはテクノロジー...

Google ドキュメントでテキスト要約を自動的に生成できるようになりました。

私たちの多くは、毎日たくさんのファイルを処理する必要があります。新しい文書を受け取ったとき、通常は、...

スタンフォード大学は4年連続でAIレポートを発表しています。今年はどんな内容が取り上げられたのでしょうか?

2021年スタンフォードAIインデックスレポートが正式にリリースされ、過去1年間のAIの全体的な発...

Appleとオレゴン州立大学がAutoFocusFormerを提案: 従来のグリッドを廃止し、適応型ダウンサンプリング画像セグメンテーションを使用

従来の RGB 画像はラスター形式で保存され、ピクセルは画像全体に均等に分散されます。ただし、この均...

6つの主要な人工知能アプリケーションの主要技術の詳細な説明

01ロボティックプロセスオートメーション(RPA) RPA (ロボティック プロセス オートメーショ...