アルゴリズムはあなたが次に何をするかを知っている

アルゴリズムはあなたが次に何をするかを知っている

[[113040]]

コンピューターがまだ十分に機能していない分野がいくつかあります。たとえば、顔認識(メディアを聞かないでください)や、巨大な数の素因数を見つけること(現在のほとんどの暗号化方法の基礎)などです。膨大な数の可能性と膨大なニュアンスに直面したコンピューターは、正しい答えに到達するためにあらゆる可能性を徹底的に列挙しなければなりません。しかし、コンピューターに鼻を認識するように頼む場合でも、数字を見つけるように頼む場合でも、本質的には処理と操作です。コンピューターは人間の動きを分析する能力がなく、現時点では人間の脳の方がこの能力に優れています。

顔認識と行動認識は、セキュリティ分野とソーシャルネットワークにおける重要な研究テーマです。現在多くの都市に広がっている監視カメラのネットワークは、人間の目から切り離すことはできません。世界中の治安機関があらゆるカメラを常時監視することにどれほど熱心であるかは想像に難くない。ロンドンは、街角ごとに監視装置(あるいは 2 つ、あるいは 3 つ)を設置したいと思っているはずです。

今年 6 月に開催されるコンピューター ビジョンおよび画像認識カンファレンスで、MIT とカリフォルニア大学の研究者が、従来の人間の目による監視を瞬時に上回る新しい動作認識アルゴリズムを実演する予定です。このアルゴリズムは自然言語処理アルゴリズムに基づいており、特定の主要分野では既存のテクノロジーを上回ることができます。

たとえば、このアルゴリズムはメモリをよりスマートに使用し(大量の仮想メモリを消費します)、メモリ使用量を一定に保つことができるため、大きなファイルやストリーミング ビデオの視聴/処理が可能になります。

ストリーミング メディアの処理はそれ自体が大きな技術的進歩であり、新しいアルゴリズムは完全に完了していないアクションを処理することさえ可能です。たとえば、路上で男性が突然他人のコートのポケットに手を伸ばした場合、アルゴリズムは男性の次の行動を予測できる。ある意味では、新しいアルゴリズムは未来を予測することができます。しかし、防犯と比較すると、その主な機能は依然として動作認識です。

[[113041]]

研究者たちは、「行動文法」と呼ばれる奇妙な考えを提唱した。彼らは、言葉は一定の規則に従って文章を構成できるため、行動にも対応する規則とサブアクションがあるはずだと考えた。

MITの博士研究員ハメド・ピルシアヴァシュ氏は、最も難しいのは動作を分類し、どれが主語で、どれが動詞で、どれが副詞かを判断することだと語った。ピルシアヴァシュ氏は、お茶を注ぐ、コーヒーを作るといった動作はいくつかのサブ動作で構成されており、自分の仕事はこれらのサブ動作を分解して分類することだと語った。

このアルゴリズムには機械学習のメカニズムがあります。コンピュータ プログラムは入力データ デバイスから学習します。一定期間の「トレーニング」の後、プログラムはより賢くなります。プログラムは、さまざまなアクションを含むビデオを観察し、各サブアクションをスキャンします。

特定のアクションの開始を観察することで、プログラムはそのアクションのすべての可能な終了を、最も可能性の高いものから最も可能性の低いものの順にランク付けして生成できます。ビデオが進むにつれて、新しく追加された情報によって、特定のアクションの可能性が排除されます。(たとえ人物のアクションが変わっていなくても、時間も情報であるため、それ自体が新しい情報です。) プログラムは、可能性のあるアクションの確率を再度整理します。プログラムは重要なアクションをスキャンすると、次のアクションを非常に正確に予測できます。

[王大発才、Vice経由]

<<:  物理学者は神の粒子を研究するためのアルゴリズムを開発するためにプログラマーを招待する

>>:  アルゴリズムの質問: 計算された π の値が正確かどうかをどのように判断するのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

7兆のブルーオーシャンが呼んでいる、ケータリングロボットの商業利用を加速させるには?

「機械が人に代わる」という無人化とインテリジェント化の潮流は、伝統的な飲食業界のあらゆる分野に広が...

高度な数学に希望があります!ニューラルネットワークは1秒未満で偏微分方程式を解く

タスクの数が増えるにつれて、現在の計算方法を使用して汎用の日常的なロボットを構築するコストは法外なも...

...

かつて人類を滅ぼす恐れがあったロボットは、商業的なパフォーマンスツールになりました。人工知能は結局のところまだ高価すぎます。

人類文明の継続的な発展に伴い、社会の分業は大きな変化を遂げ、さまざまな産業の置き換えと反復において、...

自動運転のための強化学習:人間主導の経験ベースのアプローチ

[[428302]] 2021年9月26日にarXivにアップロードされた論文「人間のガイダンスによ...

オートメーション・エニウェア、世界初のウェブベースRPAプラットフォームを発表

RPA(ロボティック・プロセス・オートメーション)業界のリーダーであるオートメーション・エニウェアは...

...

「百度脳産業イノベーションフォーラム」が本格始動、伝統産業向けAIソリューションを提案

「将来、AIとは何の関係もないと主張する企業はなくなるだろう」これは、2018年の世界人工知能会議で...

...

IEEE: AI の時代において、基本的なサイバー衛生で十分でしょうか?

長年にわたり、強力なパスワード、定期的なデータ バックアップ、多要素認証は、個人情報を安全に保つため...

[ディープラーニングシリーズ] PaddlePaddle と Tensorflow を使用したクラシック CNN ネットワーク GoogLeNet の実装

以前、LeNet、AlexNet、Vgg についてお話しましたが、今週は GoogLeNet につい...

5つの重要なステップ!ディープラーニングモデルを構築するにはどうすればいいですか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

...

認知マップの科学的インベントリ: グローバルな第3世代AIの「大きな」機会

近年、人工知能 (AI) は、ディープラーニング、コンピューター ビジョン、自然言語処理などの技術革...