ロボットはどのようにして深く学習するのでしょうか?論理的判断と感情的な選択は依然として障害となっている

[[187099]]

一人でいるときに少し寂しさを感じたらどうすればいいでしょうか？Microsoft Research Asiaが立ち上げた「Microsoft Xiaoice」は、親友のようにあなたとチャットして退屈を癒してくれるかもしれません。「Xiaobing」バージョン3.0には、「外見を評価する」や「一致するアイテムを選択する」などの機能に加えて、ディープラーニング技術に基づく強力な視覚認識機能も備わっています。写真を見た後、感情に基づいて人間的な応答を返すことができ、応答速度は250ミリ秒に短縮されます。

これは、Microsoft XiaoIce や囲碁の名人 AlphaGo だけではありません。インターネット検索から言語翻訳、さらには自閉症のリスクを高める遺伝子の特定まで、大量のデータから未知の情報を予測する必要があるあらゆる分野で、ディープラーニングが活躍します。では、ディープラーニング技術とは何でしょうか? それは人間の生活をどのように変えるのでしょうか?

10,000枚の画像に重複した猫が見つかる

2011年、Google研究所の研究者らは、動画ウェブサイトから1000万枚の静止画像を抽出し、それをGoogle Brainに「入力」し、繰り返し現れるパターンを見つけることを目指した。 3日後、Google Brain は人間の助けを借りずにこれらの写真から「猫」を発見しました。

Google Brain は、ディープラーニング技術を使用し、1,000 台のコンピューターで構成される大規模なニューラルネットワークモデルです。この事件は当時のテクノロジー界でセンセーションを巻き起こし、ディープラーニング復活の画期的な出来事とみなされました。

いわゆるディープラーニングは、機械学習の機能を実現するために複数層のニューロンで構成されたニューラルネットワークです。これらの多層コンピュータネットワークは、人間の脳のように情報を収集し、収集した情報に基づいて対応するアクションを実行できます。

従来の機械学習方法では、一般的に、1 + 1 は 2 に等しいなどの単純な線形関係しか抽出できません。しかし、世界は、収入と年齢、性別、職業、教育水準などの単純な関係で説明できるものではありません。ディープラーニングの出現により、この状況は変わりました。ディープラーニングは、人間の脳のニューラルネットワークを模倣することに着想を得ています。

科学者たちは、人間の大脳皮質は網膜から送られたデータから直接特徴を抽出するのではなく、複雑なネットワークモデルを通じて受信した刺激信号をフィルタリングすることを発見しました。この階層構造により、ビジョンシステムによって処理されるデータの量が大幅に削減され、最終的に有用な情報が保持されます。

1960年代、生物学者が猫の大脳皮質を研究していたとき、その独特なネットワーク構造がフィードバックニューラルネットワークの複雑さを効果的に軽減できることを発見し、「畳み込みニューラルネットワーク」を提唱しました。このネットワーク構造を使用して作成されたディープラーニングプログラムは適応性が高く、人工知能における画期的な進歩となっています。

音声認識は人間とコンピュータの相互作用を変える

簡単に言えば、ディープラーニング技術は人間の脳のシミュレーションであり、人間の脳が持つ多くの機能を実行できます。

最もよく知られているのは視覚機能です。カメラは人間の目のように世界を見ることができますが、人間の脳のように世界を理解することはできません。ディープラーニングはこの欠点を補います。 Baidu Image Recognition はディープラーニングを活用して、写真内のオブジェクトのカテゴリを正確に識別し、写真を自動的に分類または検索できます。ディープラーニングにより、顔をスキャンするだけで簡単に支払いができるようになります。ディープラーニングにより、特殊な機械が特定の空間内のすべての人や車両の所在を検出し、疑わしい危険な事件を即座に警告することができます。

同時に、ディープラーニング技術は音声認識にも広く使われています。ディープラーニングの助けにより、コンピューターの音声認識機能はますます強力になり、依然としてキーボードが主流となっている現在の人間とコンピューターの対話モードが変化する可能性があります。

強化学習と組み合わせたディープラーニングは、ロボット工学の分野に大きな変化をもたらしています。強化学習とは、ロボットが環境との相互作用で得られる報酬と罰を通じて、より良い戦略を自律的に学習することを指します。少し前に話題になった「アルファ碁」は強化学習の成果です。他のプレイヤーとチェスをしたり、自分自身と対戦したりして、勝敗から学習することで、よりよいチェス戦略を模索します。

ディープラーニングがさらに進化する理由

ただし、強力なニューラルネットワークを作成するには、さらに多くの処理レイヤーが必要です。しかし、ハードウェアの制限により、初期の段階では 2 ～ 3 つのニューラル層しか生成できませんでした。では、ディープラーニングが他のものより優れている理由は何でしょうか?

明らかに、高性能コンピューティング機能の向上は大きな助けになります。近年の GPU (グラフィックスプロセッシングユニット)、スーパーコンピューター、クラウドコンピューティングの急速な発展により、ディープラーニングが注目を集めるようになりました。 2011 年、Google Brain は 1,000 台のマシンと 16,000 個の CPU を使用して、約 10 億個のニューロンを持つディープラーニングモデルを処理しました。これで、同じ計算を複数の GPU で実行できるようになりました。

「ディープラーニングも、ロケットに燃料があるように、ビッグデータによってサポートされています。」DeepGlintのコンピュータービジョンエンジニアであり、清華大学オートメーション学部の博士号を持つパン・チェン氏は、ディープラーニング技術は、子供が現実世界から情報を収集するのと同じように、多数の事例に基づいていると述べた。さらに、より多くのデータが「与えられる」ほど、AI は賢くなり、「消化不良」に悩まされる可能性が低くなります。ビッグデータが不可欠であるため、現在ディープラーニングで最も力を入れている企業は、基本的にGoogle、Microsoft、Baiduなど、大量のデータを持つIT大手です。

現在、ディープラーニング技術は、音声認識、コンピュータービジョン、言語翻訳などの分野で従来の機械学習手法を打ち負かし、顔認証や画像分類では人間の認識能力を上回っています。専門家は、数年後には私たちのポケットの中の携帯電話が人間の脳と同じくらい複雑なニューラルネットワークを実行できるようになると予測しています。

しかし、現在の傾向から判断すると、ディープラーニング技術はまだ「舞台裏の監視室に座っている人々」に取って代わることはできません。たとえば、レストランで食事をした後、友達と急いで代金を支払おうとしている場合、スマートカメラでは、その押し合いが喧嘩なのか、それとも何か他のことなのかを判断するのは困難です。論理的判断と感情的な選択は、ディープラーニングにとって克服できない障害であることがわかります。

一目で悪者を判別できるシステム

コンピュータービジョンと人工知能に注力するテクノロジー企業DeepGlintは、ディープラーニング技術をベースに開発したインテリジェント認識システムを銀行のセキュリティ監視分野に適用します。

従来の光学レンズでは画像を認識する際に「奥行き」の次元が失われることを考慮して、DeepGlint は銀行のセキュリティ監視専用の 3 次元センサーセットを開発しました。その背後では、報酬と罰のメカニズムでトレーニングされたアルゴリズムモデルが、異常を積極的に特定できます。「誰かが隣の空いているATMではなく、人が入っているATMに近づいているのを見たとき、その人の軌跡を特定し、その人の行動が正常かどうかを判断するにはディープラーニングが必要です」とMegviiのCEO、He Bofei氏は語った。システムが異常を検知すると、バックグラウンドのスーパーバイザーにそれをプッシュする。機械に正確な判断を教えるには、何十万もの画像データが必要です。

何博飛氏は、このインテリジェント認識システムに横顔や顔のない全身写真を与えれば、99％以上の精度で素早く対象物をロックオンできると指摘した。前提として、6,000 ～ 15,000 個のサンプルのサンプルライブラリを構築します。「サンプルが *** に達すると、精度が 20% 以上低下する可能性があります。」

<<: 将来ロボットは人間の皮膚を持つようになるかもしれないが、その外見はかなり恐ろしい

>>: 知能ロボットは人間との交流を終わらせるのでしょうか?