コンピューター ビジョンはテクノロジー企業にとって恩恵となりつつあり、これまでは人間にしかできなかったタスクを機械が高速化して実行できるようにしています。 この動きは、eBayが、ユーザーが既存の写真を使って類似商品を検索できる新しい検索機能を追加すると発表した数カ月後に起こった。一方、オンライン衣料品小売業者のASOSは、ファッション分野に参入している。 Shutterstock は先週、ユーザーが独自のレイアウトに基づいてストック写真を検索できる新しいテスト機能を発表しました。数日後、Google フォト アプリは新しいペット画像認識機能をリリースしました。 つまり、コンピューター ビジョンの分野はますます面白くなってきており、人工知能への投資も大きく成果を上げているのです。 現在、コンピューター ビジョン テクノロジーの進歩のほとんどは静止画像の分野で起こっていますが、ビデオでもコンピューター ビジョン テクノロジーの成果が見られ始めています。たとえば、ロシア当局は全国的なリアルタイム監視ネットワークに顔認識技術を適用している。 Pornhub も同様のことを行っており、特定の性交体位を認識できるようにシステムをトレーニングするなど、「アダルトエンターテイメント」ビデオを自動的に分類しています。さらに、現実世界の行動を理解する機械の能力に大きく依存する、急成長中の自動運転車産業もあります。 このような背景から、Google は画像内の動作を識別するコンピューター ビジョンの研究を前進させることを期待して、新しいビデオ データベースを立ち上げました。 AVA は「Atomic Visual Actions」の略で、ユーザーがビデオ シーケンス内で操作できる複数のタグのデータベースです。 動画内のアクション認識が難しいのは、主に、動画内にさまざまな複雑なシーンが絡み合っており、複数のアクションが異なる人物によって同時に実行されることにあります。 「画像内の人間の動作を機械に認識させることは、コンピュータービジョンの基本的な問題ですが、個人用ビデオの検索と発見、スポーツ分析、ジェスチャーインターフェースなどのアプリケーションにとって非常に重要です」と、GoogleのソフトウェアエンジニアであるChunhui Gu氏とDavid Ross氏はブログ投稿で説明しています。「過去数年間、画像分類と物体検索において画期的な進歩がありましたが、人間の動作を認識することは依然として大きな課題です。」 本質的に、AVA は 80 個のアトミック アクションが注釈付けされた YouTube URL の集まりであり、握手、キック、ハグ、キス、飲酒、楽器の演奏、ウォーキングなど、多くの日常的なアクティビティをカバーする約 58,000 個のビデオ クリップに及びます。 Google は、データベースを公開することで、機械の「社会的視覚知能」を向上させ、人間が何をしているかを理解し、次に何をするかを予測できるようにしたいと考えています。 同社は「AVAのリリースにより、人間の行動認識システムの開発が改善され、時空間間隔ラベルに基づいて複雑な活動をモデル化する機会が提供されることを期待している」と述べた。 |
<<: 人工知能が他に何ができるか知りたいですか?明確な「ベイジアン意識」を持たなければならない
遺伝的アルゴリズムはランダムなグローバル最適化アルゴリズムです。人工ニューラル ネットワークと並んで...
▲ テーブルの上にいるのはマンホールの蓋でしょうか、それともトンボでしょうか?(写真提供:ダン・ヘ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
最近、ウォール・ストリート・ジャーナルの記事によると、一部のベンチャーキャピタリストは、生成型人工知...
9月26日から28日まで、北京でグローバルモバイルインターネットカンファレンス(GMIC 2018)...
2021年までに、学習アルゴリズムと人工知能の研究を通じて、機械は多くの面で人間よりも優れていると...
近年、大規模マルチモーダルモデル (LMM) の機能が向上したため、LMM のパフォーマンスを評価す...
私たちの忙しいデジタル生活の中で、サイバー脅威はより高度化し、頻繁に発生しています。従来の方法だけで...
9月25日、北京市中関村の百度ブレインイノベーション体験センターで、百度ブレインオープンデーのポート...
セキュリティ企業であり脆弱性報奨金プラットフォームでもあるHackerOneは10月30日、先週20...