畳み込みニューラルネットワークの父:人工知能が動画から常識を学ぶための次のステップ

畳み込みニューラルネットワークの父:人工知能が動画から常識を学ぶための次のステップ

志東西(公式アカウント:zhidxcom)

起源

ディープラーニング分野の大物として、ヤン・ルカン氏は近年Facebookの人工知能プロジェクトを急速に前進させており、その勢いはGoogleに劣らない。現在、Facebook の顔認識技術 DeepFace は 4 億人以上の顔を認識できますが、Yann LeCun 氏はこれに満足していません。彼は、機械視覚は写真からの認識に満足すべきではないと考えています。次のステップは、機械がビデオから「常識を学ぶ」ことです。

5年前、研究者たちは画像認識の精度において大きな進歩を遂げました。この背後にある技術、つまり人工ニューラル ネットワークが、最近の人工知能のブームを可能にしました。これにより、Google や Facebook で写真アルバムを検索できるようになり、顔認識を使用する多数のアプリも利用できるようになりました。

FacebookのAI研究チームの責任者であり、ニューヨーク大学の教授でもある彼は、機械視覚の分野におけるニューラルネットワークの応用の先駆者です。彼は、この分野にはまだ大きな発展の余地があり、この分野の進歩によって常識的なソフトウェア システムが実現できると考えています。

Q:現在のマシンビジョンのレベルはどの程度ですか?

YannLeCun : 画像に目立つ主題がある場合は、主題のカテゴリにラベルを付けるだけで済みます。十分なデータ(たとえば、カテゴリごとに 1,000 枚の画像)があれば、特定のブランドの車、特定の種類の植物、特定の血統の犬など、かなり具体的なものを認識することを学ぶことができます。風景、夕焼け、結婚式、誕生日パーティーなど、より抽象的なものも認識できます。わずか 5 年前には、この問題が解決可能であるかどうかは明らかではありませんでした。 (私たちは今それを克服しました) しかし、これは視覚の問題が解決されたことを意味するものではありません。

Q:まだ解決されていない重要な問題は何ですか?

YannLeCun : 画像や動画のキャプションや注釈を自動的に生成する取り組みは、長年行われてきました。有望に見えても、実際にはそれほど信頼できるものではないアプローチもいくつかありました。それらの適用範囲は、トレーニング方法によって大きく制限されます。ほとんどのシステムでは、他の種類のオブジェクトを含む画像や通常とは異なる状況の画像を与えると、認識パフォーマンスはひどく低下します。彼らには常識がない。

Q:視覚と常識の関係は何ですか?

ヤン・ルカン:それは誰に話すかによります。Facebook 内でも、この点については人によって意見が異なります。言語のみを使用してインテリジェント システムと通信できますが、問題は言語が非常に低い帯域幅の情報チャネルであることです。人々は情報を解釈するための豊富な背景知識を持っているため、言語を通じて多くの情報を伝達することができます。

AI システムに十分な情報を提供する唯一の方法は、言語よりもはるかに多くの情報を含む視覚認識に基づくことだと主張する人もいます。次に、機械に「これはスマートフォンです」「これはローラーです」「押せるものと押せないものがあります」と伝えると、機械は世界がどのように機能するかについて基本的な知識を学習するかもしれません。

それは赤ちゃんの学習方法に少し似ています。赤ちゃんは明確な指示がなくても、世界について信じられないほど多くのことを学びます。

私たちは、機械がビデオを見るなどして、現実世界の法則を反映した大量の事実を取得することを本当に望んでいます。これにより、最終的に彼らは常識を獲得できるようになります。幼い動物や赤ちゃんが生後数か月でどのように学習していくかを見るのは興味深いことです。彼らは、観察するだけで短期間のうちに世界に対する驚くべき理解を発達させます。そして、今日の機械は世界についてほとんど何も知らないため、さまざまな方法で簡単に騙されてしまう可能性があります。

Q:インテリジェントシステムが観察を通じて学習できるようにする上で、どのような進歩がありましたか?

YannLeCun:学習システムは未来を予測できるはずであり、私たちはこのアイデアに非常に興味を持っています。学習システムにビデオのいくつかのフレームを見せると、次に何が起こるかを予測します。この種の作業を行うようにシステムをトレーニングできれば、教師なし学習システムの基礎を構築できたことになると思います。これは、多くの興味深い可能性を開く転換点になると思います。その応用はマシンビジョンに限定されるものではなく、AI の継続的な進歩にとって重要な部分です。

<<:  AI が「脳で画像を完成させる」ことを学習: ニューラル ネットワークが 0 から 1 までの画像を完成させる

>>:  人工知能が注目を集め、ロボットキャスターが生放送の「新参者」に

ブログ    
ブログ    

推薦する

今年の英語大学入試では、CMUは再構成事前トレーニングを利用してGPT3をはるかに上回る134点という高得点を獲得した。

データの保存方法は、生物学的ニューラル ネットワークから人工ニューラル ネットワークへと変化しており...

NetEase Cloud Music 推奨システムのコールド スタート技術

1. 問題の背景: コールドスタートモデリングの必要性と重要性コンテンツプラットフォームとして、QQ...

...

「ソースコード解析」仮想DOMアルゴリズムの実装方法

[[378869]]前回の記事「仮想 DOM が実際の DOM に進化する方法」では、仮想 DOM ...

ソフトウェア開発プロセスは、路上でのスマートカーの安全な運行を保証するものである。

2021年に入り、自動車の道路事故率を減らし、運転プロセスの快適性を向上させる先進運転支援システム...

1枚の写真を2分で3Dに変換します。テクスチャ品質とマルチビューの一貫性:新しいSOTA|北京大学が制作

写真を 3D に変換するのにかかる時間はわずか2 分です。さまざまな視点から見て、質感の品質と一貫性...

AIが伝染病と闘う: 時折の恥ずかしさの裏に究極の防壁が現れる

人類と新型コロナウイルスとの戦いは今も続いていますが、この間、さまざまな「人工知能+」アプリケーショ...

二度とアルゴリズムの罠に陥らないでください!背後にいる人物を見つけ出す

誰もがこのような経験をしたことがあると思います。道路を運転しているとき、携帯電話は位置情報と速度を送...

Google が基本世界モデルをリリース: 110 億のパラメータ、インタラクティブな仮想世界を生成可能

Sora がリリースされてからまだ 2 週間も経っていないが、Google の世界モデルが登場し、そ...

韓国はLK-99の室温超伝導は証明できないと信じており、国内チームは拡張された材料が魔法のような特性を持っていると信じている

韓国でセンセーショナルな「常温超伝導」事件が最近終息したようだ。韓国超伝導低温学会の検証委員会は最近...

ディープラーニング入門: オートエンコーダから変分オートエンコーダまで

オートエンコーダ(AE)は、半教師あり学習や教師なし学習で使用される人工ニューラルネットワーク(AN...

2つのセッションでは人工知能技術が注目を集めました。AI技術はこれらの業界で導入されています

近年、人工知能がブームを迎えており、人々は合理的な分析と思考を通じて、人工知能の波をどのように利用し...

...

調査によると、ChatGPTはプログラミングの質問に答える際に50%以上のエラー率があることが判明

米パデュー大学の調査によると、OpenAIが開発した人工知能チャットボット「ChatGPT」は、ソフ...

TikTok買収事件、主要アルゴリズムが焦点に 英国メディア:買収候補は4つの選択肢を提示

ロイター通信が2日報じたところによると、TikTokの買収候補らは、主要アルゴリズムを伴わない買収を...