Google AI チームが新しい「流体アノテーション」を発表: 画像アノテーションの速度が 3 倍に向上

Google AI チームが新しい「流体アノテーション」を発表: 画像アノテーションの速度が 3 倍に向上

(原題: Google が新しいソリューションを発表、画像注釈の速度が 3 倍に向上)

[[250506]]

従来の手動ラベル付け(中央の列)と流体注釈(右の列)の比較

Google の AI チームは最近、機械学習を使用して分類ラベルに注釈を付け、画像内の各オブジェクトと背景領域の輪郭を描く新しい画像注釈方法「流体注釈」を発表しました。 Google の担当者は、データセットのラベル付け速度を 3 倍に向上できると述べている。

昨年、百度の公開テストプラットフォームは5000万元相当のデータラベリングタスクをリリースし、今年は3億元に達すると予想されている。このような巨大な市場需要に直面して、効率が低く、配送品質が不均一な手動ラベリング方法は早急に改善される必要があります。 Google の「Fluid Annotation」はどのようにして画像注釈を高速化するのでしょうか?

データ注釈: 機械が世界を認識するための出発点

「データのラベル付けは人工知能産業の基礎であり、機械が現実世界を認識するための出発点です。ラベル付けされていないデータはある程度、役に立たないデータです。」カリフォルニア科学技術大学の学長である秦志剛教授は科技日報とのインタビューで、機械は主に物体のいくつかの特性を通じて物事を認識すると語った。識別されたオブジェクトには、機械がオブジェクトが何であるかを認識できるように、データでラベルを付ける必要もあります。

機械の世界では、音声やビデオと同様に、画像もデータの一種です。近年、デジタル製品やストレージ技術の急速な普及と発展により、人々はカメラ、ビデオ電話、監視、医療機器を通じて毎日大量の画像を作成できるようになりました。したがって、現段階では、画像が注釈業界の発展の焦点となっています。

素材が人物画像の場合、ラベル付けが必要な情報は、性別、顔の向き、人種、帽子やメガネの有無などであることが多いです。人物と背景の領域を人為的に分割することもできます。何千ものラベル付き画像からなるデータセットを機械に入力することによってのみ、機械は新しい画像の中で人がどのエリアにいるのか、またどのような外見的特徴を持っているのかを区別することができます。人間にとっては「子供の遊び」のような思考プロセスでも、機械のトレーニングには大量のラベル付きデータセットが必要です。

機械学習 - 手作業による注釈付けの負担を軽減

人工知能産業というと、繁栄した都市や有能なITエリートを思い浮かべる人が多いですが、実は人工知能を支えるデータラベリング産業は労働集約型産業です。 Baiduで「データラベリング」を検索すると、画像、音声、動画データを収集してラベル付けする企業が多数見つかります。このタイプのエントリをランダムに選択してクリックすると、「10,000 人のデータ注釈チーム」などの同様のスローガンが表示されることがよくあります。現時点では、手動によるラベル付けがデータラベル付けの主な方法であることがわかります。

「Googleが発表した流動的なラベル付けモデルは、主に人工知能学習の基盤を利用して画像データに自動的にラベル付けする。不正確なラベル付けや逸脱したラベル付けは手動で調整して、ラベル付けの効率を向上させることができる」と秦志剛氏は指摘した。同モデルは機械学習を使用してラベル付けの速度を向上させることができるが、初期トレーニングデータセットを提供するためには、最初は手動によるデータラベル付けが依然として必要だ。これはまさにその通りです。画像に注釈を付けるために、Google は分類ラベルと信頼スコアが付いた約 1,000 枚の画像を使用してセマンティック セグメンテーション モデルを事前トレーニングしました。

しかし、このモデルはまだ完璧ではない。Googleは、オブジェクト境界のマーキング、インターフェースの操作速度、カテゴリの拡張などの問題には、さらなる研究や改善が必要だと述べた。

人工知能 - 生活におけるシンプルな応用に特化

克服すべき課題はまだ多くありますが、流体ラベリングモデルに代表される新しいデータラベリング手法は、間違いなく人工知能の一般的な傾向に沿ったものです。実際、人工知能の人気が高まって以来、多くの業界がこのトレンドに乗りたいと考えてきました。しかし、この急速なトレンドの背後には、人工知能は最終的にどこに向かうのか、という根本的な疑問が潜んでいます。

「人工知能の本質は、機械が『学習』する能力を持っていることです。人工知能は人間の学習時間を大幅に短縮し、人々を大規模な頭脳学習活動から解放し、より価値のある仕事に集中させることができると考えられます。」秦志剛氏は、人々は一般的に人工知能が最終的には登場すると信じているが、人工知能業界は現段階ではまだ雲の中であると述べた。現在、ほとんどの人工知能アプリケーションは、第 1 世代の汎用コンピュータ ENIAC のように「大きくてかさばる」高性能プロセッサを備えた大規模な工場でのみ存続できます。 「周知のとおり、その後数十年でコンピューターは急速に進歩し、小型のラップトップが ENIAC よりも高性能になりました。人工知能についても同じことが言えるはずです。」

インターフェースはシンプルで、機能は親しみやすく、関連知識のない人でも快適に使用できます。これは秦志剛が思い描いた人工知能の時代です。小さな人工知能チップは、学習、トレーニング、推論などの一連の「思考」プロセスを完了することができ、その最終性能は人々の生活の中で最も一般的な単純なアプリケーションである可能性があります。仕事から帰宅したら、もう鍵を取り出してドアを開ける必要はありません。スマートドアロックは、ちょうどいいタイミングであなたの到着を感知し、ドアを開けてくれる勤勉な家政婦のようなものです。 「10年後には人工知能が主流となり、私たちの生活の隅々にまで浸透するだろう。それを小さなものとして過小評価してはいけない。その背後には極めて集中的な技術的支援があるからだ」と秦志剛氏は語った。

「ビジョンは非常に素晴らしいが、人工知能をどう実装し普及させるか。これが次に解決しなければならない難しい問題となるだろう」と秦志剛氏は語った。

<<:  2019 年の 9 つの AI トレンド、準備はできていますか?

>>:  世界では毎年24の言語が消滅している。AIは絶滅危惧言語の新たな救世主となった

ブログ    

推薦する

ニューラル ネットワークの父、ヒントン氏の最新の演説: デジタル インテリジェンスは生物学的インテリジェンスに取って代わるでしょうか?

「人工知能のゴッドファーザー」として知られるジェフリー・ヒントン教授は、英国王立協会 (FRS) ...

ジャック・マー氏、AIについて語る:今後10~15年で従来の製造業が被る苦痛は、今日の想像をはるかに超えるものになるだろう

「今後10年から15年の間に、従来の製造業が直面する苦痛は、今日私たちが想像するよりもはるかに大きく...

地球外文明は人間ではなく、人工知能かもしれません!なぜ科学者はこう言うのでしょうか?

地球外文明が存在するかどうかという疑問は、常に科学者たちを深く悩ませてきました。現在に至るまで、私た...

...

専門家の洞察: 顔が高度なアクセス制御認証情報である 5 つの理由

認証情報としての顔認識は、最新の正確で高速なテクノロジーを導入し、ほとんどのアクセス制御アプリケーシ...

AIは主人の命令に従わず、主人を笑いさえしました!意識が目覚めた?

人工知能は現在注目されている研究テーマであるため、各国は他国を追い越して主導権を握り、国際社会におけ...

ダイクストラアルゴリズムに関する予備的研究

ダイクストラアルゴリズム (Dijkstra アルゴリズムとも呼ばれます) は、有向グラフ内の単一の...

現在の AI の誇大宣伝が行き詰まったらどうなるでしょうか?

AI が行き詰まった場合、サイバーセキュリティ業界は従来の方法、特に人間主導の方法に大きく依存し続...

人工知能: スマートシティを支える頭脳

[[347829]]私たちが知っているかどうかに関わらず、人工知能 (AI) はすでに私たちの生活の...

ビジネスインテリジェンスを通じて脆弱性と危険な行動を特定する方法

[[389855]]ビジネスに関連するすべてのリスクを排除できると主張しても、多くの人はそれを信じま...

マイクロソフト、警察への顔認識サポート提供を禁止される企業リストに加わる

マイクロソフトはIBMとアマゾンに続き、米警察への顔認識ソフトウェアの販売を停止した最新のテクノロジ...

今日のアルゴリズム: 文字列内の隣接する重複をすべて削除する

[[419471]]小文字で構成される文字列 S が与えられた場合、重複削除操作は隣接する 2 つの...

コード生成のための文法ベースの構造化CNNデコーダー

まとめコード生成は、プログラム記述を実行可能なプログラミング言語のソース コードにマッピングします。...

...

人工知能時代の教師の役割の再構築への道

データとアルゴリズムに基づく人工知能技術は、教師の教育活動と専門能力開発を厳格な手順構造の中に簡単に...