人工知能の新たなブレークスルー:ニューラルネットワークが画像内の物体を自律的に識別できる

人工知能の新たなブレークスルー:ニューラルネットワークが画像内の物体を自律的に識別できる
海外メディアの報道によると、フィンランドのコンピューター科学者は神経生物学的手法を用いて人工知能研究で新たな進歩を遂げており、ディープラーニングニューラルネットワークは画像内の物体を75%の精度で自律的に識別できるという。

[[183504]]

人間の脳は素晴らしいです。何十年にもわたる研究を経ても、人間は未だに人間の脳の超高速計算速度を再現できていません。現在、コンピューター科学者が利用できる最も優れたツールはニューラル ネットワークです。このような大規模なコンピュータ ネットワークは、人間の中枢神経系と同様の方法で複雑な問題を解決するようにトレーニングすることができ、さまざまなレベルのニューロンを使用して問題のさまざまな部分を解決し、最終的にそれらを適切な答えに統合します。

問題は、そのようなニューラル ネットワークが問題を解決する方法を学習する前に、大量のデータ入力とトレーニングが必要になることです。たとえば、トレーニング データの優れたソースとしては、手動で注釈が付けられた 100 万枚の写真を含む視覚情報の巨大なデータベースである ImageNet があります。

これは「教師あり学習」と呼ばれますが、真の人工知能とは、ニューラル ネットワークが「教師なし学習」を自動的に完了する方法を学習する必要があることを意味します。フィンランドのスタートアップ企業Curious AIがまさに実現したいと考えているのは、まさにそれだ。

「人間の脳は、教師なし学習を多く行っています」と、ヘルシンキで開催された技術業界カンファレンス「スラッシュ 2016」で、キュリアス AI の最高技術責任者アンディ・ラスムス氏は語った。「赤ちゃんにスプーンとは何かを教える必要はありません。赤ちゃんは環境から学び、自動的に概念を形成します。」

「人間の脳は、物体に基づいて概念を形成するのが簡単です。これは心理学で『ゲシュタルト理論』として研究されてきました。人間の脳は、形、色、動き、パターンが似ているものをグループ化します。私たちが最初に行ったのは、ディープラーニング システムが人間の脳と同じように物体を分類できるようにすることでした。」

神経科学を人工ニューラルネットワークに応用する

神経科学では、レートコーディングと呼ばれる理論によれば、脳内のニューロンの発火率が高ければ高いほど、ニューロンはより活発になります。ニューロンは発火し続けます。 1980 年代に、科学者たちはニューロンが集まってさまざまな情報を表すことを発見しました。

この理論は「一時コーディング」と呼ばれます。理論によれば、ニューロンの発火のタイミングは重要であり、正確な発火のタイミングによって、何万ものニューロンの中からどのニューロンが同じグループに属するかが決まります。したがって、いくつかのニューロンが同時に発火し、事務用品の山の中にある赤い布切れなど、脳が物体の集合の中の特定の物体を認識するのを助けると同時に、ニューロンの別のサブセットが、他の物体が背景情報であることを脳に伝えます。

「私たちのコンピューターアルゴリズムには一時的なエンコードメカニズムが組み込まれています。ニューラルネットワークの各層に複数のコピーを保存します。ニューラルネットワーク全体は4回複製されます。つまり、システムは各コピーが特定のオブジェクトを表していることを学習でき、これらのオブジェクトを結合すると元の画像と一致する可能性があるということです」と、Nvidiaの元ソフトウェアエンジニアで、現在はフィンランドのアアルト大学でディープラーニングの博士研究を行っているラスムス氏は述べた。

「画像を4つの異なるグループに分割することで、ニューラル ネットワークは画像を独自にエンコードできます。これは教師なし学習であり、システムにラベルを付ける必要はありません。ニューラル ネットワークに画像を表示すると、自動的に画像が要素 (画像内のオブジェクトなど) に分解されます。」

ニューラル ネットワークが画像を個々の要素に分解すると、画像が重なってぼやけることがなくなるため、オブジェクトの分類と識別が容易になります。

知覚的グループ化はディープラーニングに革命をもたらす可能性がある

研究者らは、最初にニューラルネットワークに、教師なしで画像を分析し、オブジェクトを整理することを教え、次に画像にラベル付けされた情報を追加して(教師あり学習)、システムが何を学習したかを観察しました。その結果、Curious AI の Tagger システムは 75.1% の精度を達成できることがわかった。

比較すると、従来のニューラル ネットワークの精度はわずか 21% で、ランダムな推測よりもわずか 1% 高いだけです。

「これは、教師なし学習をさらに一歩進めた革命的な研究です」とラスムス氏は言う。「機械に物体の概念を与えることで、人間の脳にもっと近い教師なし学習を実現しています。これは、ニューラル ネットワークがより高度な推論を実行し、物体と環境の関連性を学習できるようにする将来の研究に役立つ可能性があります。」

「現在のシステムでは、コンピューターは統計的な視点で世界を捉えています。私たちが暮らす世界にコンピューターを導入したいのであれば、機械が人間のように世界を理解することが非常に重要です。人間の視覚は私たちにとってとても自然なことなので、コンピューターの視覚がなぜそれほど劣っているのか理解できないことがよくあります。」

同社の関連論文「Tagger: Deep Unsupervised Perceptual Grouping」は、12月7日にバルセロナで開催されるNeural Information Processing Systems 2016ディープラーニングカンファレンスで発表される予定だ。

Curious AI は、実際の AI システムでディープラーニング技術を試験的に導入する業界パートナーを募集しています。同社は現在、無人運転技術の開発を希望する自動車メーカーと連絡を取っている。 「画像を4つの異なるグループに分割することで、ニューラルネットワークは画像を独自にエンコードできます。これは教師なし学習であり、システムにラベルを付ける必要はありません。画像をニューラルネットワークに表示すると、自動的に画像を要素(画像内のオブジェクトなど)に分割します。」ニューラルネットワークが画像を個別の要素に分割すると、オブジェクトが互いに重なり合ってぼやけた画像になることがなくなるため、オブジェクトの分類と識別が容易になります。 知覚的グループ化はディープラーニングに革命を起こす可能性があります。研究者は最初に、ニューラル ネットワークに、教師なしで画像を分析し、オブジェクトを整理する方法を教え、次に、システムが学習した内容を観察するために、画像にラベル付けされた情報を追加しました (教師あり学習)。その結果、Curious AI の Tagger システムは 75.1% の精度を達成できることがわかった。 比較すると、従来のニューラル ネットワークの精度はわずか 21% で、ランダムな推測よりもわずか 1% 高いだけです。 「これは革命的な研究であり、教師なし学習をさらに一歩進めたものです」とラスムス氏は言う。「機械に物体の概念を与えることで、人間の脳に似た教師なし学習を実現しています。これは、ニューラル ネットワークがより高度な推論を実行し、物体と環境の関連性を学習できるようにする将来の研究に役立つでしょう。」 「現在のシステムでは、コンピューターは統計ベースの世界観で動作します。コンピューターを人間の住む世界に入れたい場合、機械が人間のように世界を理解することが非常に重要です。人間の視覚は私たちにとって非常に自然なため、コンピューターの視覚がなぜそれほど貧弱なのかを理解するのは難しいことがよくあります。」 同社の対応する論文「Tagger: Deep Unsupervised Perceptual Grouping」は、12 月 7 日にバルセロナで開催される「Neural Information Processing Systems 2016」ディープラーニング カンファレンスで発表される予定です。 Curious AI は、実際の AI システムでディープラーニング技術を試験的に導入する業界パートナーを募集しています。同社は現在、無人運転技術の開発を希望する自動車メーカーと連絡を取っている。

<<:  ファイアウォールではできないことを人工知能で実現できるでしょうか?

>>:  機械に記憶を与える: DeepMind の主要研究は柔軟な重み統合アルゴリズムを提案

ブログ    

推薦する

5G + AI の統合開発は、インダストリアル インターネットにどのように役立ちますか?

2021年、デジタル経済の重要な一部である産業インターネットが再び政策の焦点となりました。中国工業...

「無人運転」の技術的道筋

無人運転車が実際に走行するには、認識、意思決定、実行における技術的な問題を解決する必要があります。 ...

AI教育を普及させるために「幼少期から始める」という考え方は、学校、親、社会にますます受け入れられつつあります。

[[254737]]小中学生の91.7%が、AI関連のコンテンツについて学ぶことに多少なりとも非常...

クラウドコンピューティングと人工知能が、先進的な企業に前例のない機会を生み出す方法

近年、ますます大規模なデータセットを処理するために SaaS (サービスとしてのソフトウェア) モデ...

音声認識技術はどのように発展したのでしょうか?

音声認識技術は 1950 年代に開発され始めました。それでは、このテクノロジーが長年にわたってどのよ...

...

AIビッグモデルにおける言語の不平等:英語は最も安価、他の言語ははるかに高価

7月31日、ユーザーが使用する言語が大規模言語モデル(LLM)のコストに大きな影響を与え、英語話者と...

アンドリュー・ン:AIはビッグデータから「スモールデータ」に移行する時が来た

AI界の巨匠アンドリュー・ン氏が最近、新型コロナウイルスの検査で陽性反応を示し、多くのネットユーザー...

「人工知能+教育」はどのような機会と課題をもたらすのでしょうか?

人工知能がどのような新しい形で登場するかが話題になっている一方で、教育分野では新たな一連の変化が起こ...

2022年に注目すべき6つのAIトレンド

AIは急速に私たちの日常生活に入り込んできており、近い将来、AIと人間の境界線を見分けることが難しく...

適切な場所で機械学習は革命をもたらすだろう

[[194517]]機械学習に代表される人工知能の分野は、現在、科学技術分野で最もホットな分野の一つ...

ChatGPTの10の実用的なビジネスユースケース

ChatGPT のビジネスユースケースは数多く登場していますが、組織は自社の特定のニーズに最適なシナ...

...

研究者はディープラーニングモデルを使って交通事故を予測する

[51CTO.com クイック翻訳]現在の世界は、コンクリートやアスファルトでできた巨大な迷路のよう...

2020 年に役に立つ機械学習ツール

TL;DR — 優れた機械学習アプリケーションを構築することは、ミシュランの星を獲得した料理を作るよ...