人工知能の主要技術：強化学習（RL）

人工知能技術はますます急速に進歩しており、それぞれのサブテクノロジーが生み出す価値もますます顕著になってきています。

2013 年、DeepMind はディープラーニングと強化学習をうまく組み合わせた DQN アルゴリズムを発明し、ディープラーニング強化学習の新しい時代を切り開きました。その後の数年間で、強化学習の成果は飛躍的に進歩し、非常に困難な問題の多くが深層強化学習アルゴリズムによって解決されました。

2016年、Google AlphaGoが囲碁の世界チャンピオンでプロ九段のイ・セドル氏を4対1で破り、ディープラーニングを世間に知らしめただけでなく、人工知能の「大ブーム」を引き起こし、強化学習の技術的側面に人々がさらに注目するようになりました。

強化学習を使用する良い例としては、ロボットに歩き方を学習させることが挙げられます。ロボットは最初に大きく前進し、その後転倒しました。この大きなステップと落下こそが、強化学習システムが注目する応答ポイントです。フィードバックが否定的であるため、システムは調整を続けます。複数の否定的フィードバックの比較に基づいて、最終的にはロボットが小さな歩幅で歩く必要があると判断し、ロボットが転倒せずに歩けるようになるまで小さな歩幅で歩き続けます。

強化学習を通じて、ボストン・ダイナミクスのロボットは、持ち上げたり、バック宙したり、窓枠に飛び乗ったりする動作を習得した。そしてディズニー・イマジニアリングは、人型ロボットに命知らずのスタントをさせることで、これを次のレベルに引き上げました。

業界関係者の中には、強化学習と他の人工知能技術の間には大きな違いがあり、その学習パラダイムが他の技術とは異なると指摘する人もいます。データの収集やラベル付けは必要ありません。代わりに、動物や人間が住む環境と同じように、インテリジェントエージェントと呼ばれるものを環境に配置します。インテリジェントエージェントは環境と対話し、環境内でタスクを完了したり問題を解決したりする方法を学びます。

強化学習は主にエージェント、環境、状態、アクション、報酬で構成されます。エージェントは、環境の現在の状態における報酬信号に基づいてアクションを実行し、それによって環境内のさまざまな状態に到達して報酬を受け取ります。

強化学習に加えて、機械学習も大きな注目を集めています。機械学習は AI のサブセットであり、さまざまなシナリオでの経験を通じてシステムをトレーニングする機能です。車両の自律性が増すにつれて、開発者は機械学習を使用してシステムをトレーニングし、より少ないデータで物体を認識し、環境をより適切に解釈できるようになります。

ディープラーニングを見てみましょう。ディープラーニングとは、アルゴリズムを通じて限られた例から一般的なルールを要約し、それを新しい未知のデータに適用するプロセスです。たとえば、過去の症例の収集から症状と疾患のパターンを要約することができます。このようにして、新しい患者が来たときに、要約されたルールを使用して、その患者がどのような病気にかかっているかを判断できます。

では、強化学習、機械学習、ディープラーニングの違いは何でしょうか? 簡単に言えば、人工知能は機械学習、ディープラーニング、強化学習を網羅する最も広い範囲をカバーしています。人工知能を子供の脳に例えると、機械学習は子供が認知能力を習得できるようにするプロセスであり、ディープラーニングはこのプロセスにおける非常に効率的な教育システムです。

強化学習や機械学習などの技術から構成される人工知能には、非常に期待できる明るい未来が待っています。 iResearch Consultingによると、国家レベルで見ると、中国の中核人工知能産業の規模は2022年に1573億元に達し、複合成長率は58％になると予想されており、業界は引き続き急速に成長するだろう。このような広大な市場空間は、あらゆる分野の投資家の注目を集めています。

「人間中心」の人工知能の開発は社会全体の課題であり、政府、企業界、学界、すべての関係者が責任を共有し、協力して推進する必要があることは特筆に値します。企業は技術の応用と推進の主体として、逃れることのできない社会的責任を負っています。強化学習関連技術を研究するにあたり、企業は法律、規制、社会通念を意識して遵守し、秩序ある持続可能な応用を推進する必要があります。

将来、世界の持続可能な開発はデータによって生み出される価値にますます依存するようになるでしょう。そして、人工知能はデジタル経済で最も広く使われている技術の 1 つです。おそらく数年後には、AIは精密農業、スマートホーム、遠隔医療、自動運転などの分野でさらに重要な役割を果たすようになるでしょう。

<<: 2020年末総括：国際AI技術研究と政府と企業の協力の進捗状況の概要

>>: 顔認識を法的に規制する方法