Google が AVA データベースを開始: 動画内の人間の行動を機械が認識できるようにする

Google が AVA データベースを開始: 動画内の人間の行動を機械が認識できるようにする

[[207258]]

コンピューター ビジョンはテクノロジー企業にとって恩恵となりつつあり、これまでは人間にしかできなかったタスクを機械が高速化して実行できるようにしています。

この動きは、eBayが、ユーザーが既存の写真を使って類似商品を検索できる新しい検索機能を追加すると発表した数カ月後に起こった。一方、オンライン衣料品小売業者のASOSは、ファッション分野に参入している。 Shutterstock は先週、ユーザーが独自のレイアウトに基づいてストック写真を検索できる新しいテスト機能を発表しました。数日後、Google フォト アプリは新しいペット画像認識機能をリリースしました。

つまり、コンピューター ビジョンの分野はますます面白くなってきており、人工知能への投資も大きく成果を上げているのです。

現在、コンピューター ビジョン テクノロジーの進歩のほとんどは静止画像の分野で起こっていますが、ビデオでもコンピューター ビジョン テクノロジーの成果が見られ始めています。たとえば、ロシア当局は全国的なリアルタイム監視ネットワークに顔認識技術を適用している。 Pornhub も同様のことを行っており、特定の性交体位を認識できるようにシステムをトレーニングするなど、「アダルトエンターテイメント」ビデオを自動的に分類しています。さらに、現実世界の行動を理解する機械の能力に大きく依存する、急成長中の自動運転車産業もあります。

このような背景から、Google は画像内の動作を識別するコンピューター ビジョンの研究を前進させることを期待して、新しいビデオ データベースを立ち上げました。 AVA は「Atomic Visual Actions」の略で、ユーザーがビデオ シーケンス内で操作できる複数のタグのデータベースです。

動画内のアクション認識が難しいのは、主に、動画内にさまざまな複雑なシーンが絡み合っており、複数のアクションが異なる人物によって同時に実行されることにあります。

「画像内の人間の動作を機械に認識させることは、コンピュータービジョンの基本的な問題ですが、個人用ビデオの検索と発見、スポーツ分析、ジェスチャーインターフェースなどのアプリケーションにとって非常に重要です」と、GoogleのソフトウェアエンジニアであるChunhui Gu氏とDavid Ross氏はブログ投稿で説明しています。「過去数年間、画像分類と物体検索において画期的な進歩がありましたが、人間の動作を認識することは依然として大きな課題です。」

本質的に、AVA は 80 個のアトミック アクションが注釈付けされた YouTube URL の集まりであり、握手、キック、ハグ、キス、飲酒、楽器の演奏、ウォーキングなど、多くの日常的なアクティビティをカバーする約 58,000 個のビデオ クリップに及びます。

Google は、データベースを公開することで、機械の「社会的視覚知能」を向上させ、人間が何をしているかを理解し、次に何をするかを予測できるようにしたいと考えています。

同社は「AVAのリリースにより、人間の行動認識システムの開発が改善され、時空間間隔ラベルに基づいて複雑な活動をモデル化する機会が提供されることを期待している」と述べた。

<<:  人工知能が他に何ができるか知りたいですか?明確な「ベイジアン意識」を持たなければならない

>>:  ビッグデータと人工知能に関する冷静な考察

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

RPA の収益は 2021 年に 18 億 9,000 万米ドルに達する見込みです。AI は RPA をどのように再定義するのでしょうか?

市場調査会社ガートナーは、ロボティック・プロセス・オートメーション(RPA)を世界のエンタープライズ...

モノのインターネットのためのデータ分析とモデリング

ビッグデータ(BIGDATA)と人工知能(AI)の発展に伴い、モノのインターネット(IOT)はAIO...

2022年に注目すべき4つのRPAトレンド

ロボティック・プロセス・オートメーション (RPA) はもはや目新しいものではなく、進化し成熟しつつ...

ガートナーは、2025年までにクラウドデータセンターの半数がAI機能を備えたロボットを導入すると予測している。

ガートナーの予測によると、2025年までにクラウドデータセンターの半数が人工知能(AI)と機械学習(...

リザーブプールコンピューティングにおける新たなブレークスルー:ニューロン数が少なくなり、コンピューティング速度が最大100万倍に高速化

複雑なシステムを予測するには、より多くのニューロンを使用する必要がありますか?ネイチャー・コミュニケ...

...

面接でコンシステントハッシュアルゴリズムについて再度質問されました。この答えは面接官を即死させるでしょう!

[[284994]]データシャーディングまずは例を見てみましょう。多くの場合、キャッシュには Re...

今後 10 年間で最も「収益性の高い」 5 つの業界。誰がやっても儲かるでしょう。

VRバーチャルリアリティは未来のトレンドであり、大きな発展の見込みがあります。現在、大手企業がこの...

チューリングは71年前にニューラルネットワークを提案しました。 「インテリジェントマシン」が再び白熱した議論を巻き起こす

[[269208]]チューリングは 1948 年に「インテリジェント マシン」と題する論文を執筆し、...

教師なし機械学習は産業オートメーションにどのようなメリットをもたらすのでしょうか?

現代の産業環境にはセンサーやスマート コンポーネントが満載されており、それらすべてが組み合わさって大...

戦闘計画システムにおける人工知能技術の応用に関する研究

近年、人工知能技術は飛躍的な進歩を遂げており、各国は人工知能技術の戦略的意義を認識し、国家戦略レベル...

Gemini 1.5 ハンズオンレビュー: Sora は偽物に見えるが、もっと素晴らしい機能がある

Googleの「反撃」が来た!ジェミニはソラに脚光を奪われましたが、今は再び脚光を浴びているようです...

ChatGPTを使用してPythonクローラースクリプトを自動的に作成する

人工知能チャットボット「ChatGPT」は最近非常に人気が高まっており、あらゆるメディアでそのニュー...

...