AIに「子犬」を認識させますか? Facebookは変化を感知できるAIを構築

AIに「子犬」を認識させますか? Facebookは変化を感知できるAIを構築

[[389144]]

今まで見たことのない犬種や色であっても、私たちは一目見てその犬を認識することができます。

周囲の環境の変化を感知する能力は、人間が生まれながらに持っている能力です。

しかし、人工知能システムの場合は違います。たとえSOTAレベルに達し、人間にはできない無数のタスクを完了できたとしても、人間にとっては簡単なことでも人工知能にはできないことがまだたくさんあります。たとえば、ゴールデンレトリバーに正面、横、前、後ろと角度を変えるように頼んだ場合、人工知能はそれを認識するのに苦労するかもしれません。

ディープラーニング モデルは、ピクセルとラベル間の統計パターンを解釈するのに優れていますが、多くの潜在的な自然な変動を持つオブジェクトを正しく識別するのは困難です。

あれは道路を除雪している除雪車ですか?それともスクールバスがひっくり返ったのでしょうか?

上記の画像は、MA Alcorn らによる「Strike(with)a pose: Neural networks are easily fooled by strange poses of familiar objects」に基づいており、バスを除雪車と誤分類するディープ ニューラル ネットワークを示しています。

人間はすぐに判断できますが、色、サイズ、視点などの要素が状況を複雑にし、AI モデルによる予測が難しくなります。

Facebook AI は、従来のソリューションでは大きな限界がある自然の変化をより適切に捉える方法、つまり「分離」と呼ばれるプロセスを模索してきました。また、私たちは最近、同変シフト演算子の概念も提案しました。これは、最も一般的な変換をシミュレートすることで、モデルがオブジェクトがどのように変化するかを理解できるようにする代替ソリューションの概念実証です。

現在、この分野における Facebook AI の取り組みは主に理論的なものですが、ディープラーニング モデル、特にコンピューター ビジョンには大きな可能性があります。解釈可能性と精度が向上し、小さなデータセットでトレーニングした場合でもパフォーマンスが向上し、一般化機能が向上します。 Facebook AI は、これらの貢献によりコンピューター ビジョンがさらに進歩し、視覚世界の複雑さをより深く理解できるようになることを期待しています。

現在の方法の限界

現在の分離手法では、モデル内の各要素をモデルの内部表現の個別のサブスペースにエンコードすることにより、モデル内のオブジェクトの基本的な変換を学習しようとします。

たとえば、分離により、犬の画像のデータセットがポーズ、色、品種のサブスペースにエンコードされる可能性があります。

このアプローチは、単一の MNIST 数字や椅子のような単一のオブジェクトなど、固定されたデータセット内のバリエーションを識別するのに適していますが、複数のカテゴリにまたがる分離のパフォーマンスは低いことがわかりました。

三角形や四角形など、複数の回転した形状を想像してください。分離モデルは、オブジェクトの形状と方向という 2 つの変動要因を 2 つの変動要因に分離しようとします。

下の図は、従来の分離処理では、複数の形状のデータセット全体を単独で回転させることはできないことを示しています。強調表示された形状は回転すると予想されますが、分離の失敗により、形状は固定されたままになります。

もつれを解くと、一連の多数の変換におけるもう 1 つの問題である位相的欠陥も発生します。トポロジカル欠陥は、ディープラーニング モデルの重要な特性である連続性に違反します。継続性がなければ、ディープラーニング モデルがデータ内のパターンを効果的に学習することが難しくなる可能性があります。

正三角形の回転を想像してください。 120 度回転した正三角形は元の三角形と区別がつかず、方向空間では同じ表現になります。ただし、三角形の頂点の 1 つに微小な点を追加すると、表現が識別可能になり、連続性が損なわれます。近くの画像は、より遠くにある画像にマッピングされます。 Facebook AI の研究では、位相欠陥は非対称形状やその他の多くの一般的な変形にも現れることが示されました。

等分散演算子を使用して変動係数を明らかにする

群論と呼ばれる数学の分野があり、同変演算子の応用について多くのことを教えてくれます。変動要因を直感的に理解する方法は、それらを一連の変換としてモデル化することであることが示されています。たとえば、三角形の回転にはグループ構造があり、90 度の回転と 30 度の回転を組み合わせると 120 度の回転が生成されます。

Facebook AI はこれらのアイデアを使用して、従来の分離の欠点を特定し、分離のための等分散演算子をトレーニングする方法を決定しました。我々はシフト演算子と呼ばれる同変演算子を提案します。これは、回転、平行移動、再スケーリングなどの一般的な変換のグループ構造を模倣したブロックを持つマトリックスです。次に、元の画像とその変換に基づいて AI モデルがトレーニングされます。

<<:  オックスフォード大学の科学人気記事、数分でわかる「機械学習とは何か」

>>:  アルゴリズム・ステーブルコインの流行が再び到来。このトレンドをリードするのはどれでしょうか?

推薦する

ガートナーなど権威ある組織:人工知能、国内外のどのAI技術が強いのか?

2020年末、我が国は第14次5カ年計画を発表し、2035年までの中国の長期目標を策定しました。 ...

企業におけるAIの応用は成熟段階に入ったのでしょうか?

マッキンゼーは、AI が多くの業務活動を自動化するという見通しに楽観的である一方で、あらゆる規模の自...

科学者たちは一連のAI映画評価ツールを開発しました。撮影が始まる前に評価を与えることができます。

海外メディアの報道によると、映画の評価は大きな問題である。すべての映画の予告編の最後にそれらを見るこ...

液体ロボットはマーケティングの策略か、それとも自動化の未来か?

液体ロボットのコンセプトは、ロボット工学と自動化をいくつかの点で変えることが期待されています。その ...

ChatGPT が突然大きなバグを発見しました!フル機能のGPT-4は無料で使用でき、ネットユーザーは大喜びしている

11月15日、OpenAIは突然、ChatGPT Plusの新規ユーザー登録を停止すると発表しました...

...

TensorFlow が素晴らしい機械学習データセット 30 選

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

初心者向けガイド: Numpy、Keras、PyTorch を使用した単純な線形回帰

[[433966]]図 1 に示すように、さまざまな種類の機械学習技術は、さまざまなカテゴリに分類で...

AI バイアスは、偏見のない視点を必要とする未解決の問題でしょうか?

[[418851]] [51CTO.com クイック翻訳]非常に複雑な技術的アプリケーションで A...

マシンビジョン: スマート製造のキーエンジン

インダストリアル 4.0 時代はインテリジェント製造と切り離せません。マシンビジョンは、現在の製造品...

視覚と言語の多粒度の調整を学習しますか? Byte は、新しいマルチモーダル事前トレーニング方法 X-VLM を提案しました。コードがオープンソース化されました。

前面に書かれた視覚言語の事前トレーニングにより、多くの視覚言語タスクのパフォーマンスが向上します。し...

ACオートマトンとベイズ法に基づくスパム識別

背景オープンな知識ソーシャルプラットフォームとして、Zhihu は「友好的」、「合理的」、「専門的」...

アルゴリズミア:人工知能は2021年に主流になる

1月6日、海外メディアの報道によると、新型コロナウイルス肺炎流行の影響により、企業内での人工知能技術...

なぜ R&D 管理はコスト削減と効率向上のための永遠の特効薬と考えられているのでしょうか?

過去2年間で、インターネット業界の人口ボーナスはピークに達し、成長率は鈍化したというのが業界の全会一...

Google 検索は年間 890 回以上改善され、そのコア アルゴリズムは毎日変更されます。

8月21日、Googleの検索事業責任者アミット・シンガル氏はGoogle+に記事を掲載し、過去1...