強化学習はアプリケーションにおける戦略の「最適解」を見つける

現在、AI システムは、さまざまなパターン認識や予測分析タスクを実行するために業界で一般的に使用されています。たとえば、AI システムは画像内のパターンを識別して顔を検出したり (顔認識)、販売データ内のパターンを見つけて需要の変化を予測したりすることができます。一方、強化学習手法は、フィードバックループを備えたアプリケーションで最善の決定を下したり、最善のアクションを実行したりすることができます。これら 2 つの直感的な使用例を通じて、AI と強化学習の違いとつながりについての予備的な理解がすでに確立されていると思います。

[[392924]]

AI 技術を使用して製造工場を運営するとします。 AI が提供するパターン認識機能は、画像や最終製品をスキャンして設計レベルや製造レベルでの欠陥を検出するなど、品質保証に使用できます。一方、強化学習システムは、製造工程が従うべき戦略（稼働させるべき生産ラインの決定、機械・ロボットの制御、製造する製品の種類の決定など）を算出・実行し、フィードバック情報を継続的に組み合わせることで、既存の戦略の改善余地を発見しながら、一定の製品品質を確保しながら特定の指標（出力など）を最大化することができます。これまで、このような問題は影響要因が多数存在するため従来の AI システムでは解決が困難でしたが、強化学習の登場により希望がもたらされたことは間違いありません。

強化学習を使用して最適な戦略またはポリシーを計算する場合、関連するアルゴリズムが直面する主な課題は、「時間的なクレジット割り当て」の問題です。具体的には、特定のシステム状態 (「マシンの現在の出力レベル、各組立ラインの忙しさ」など) では、動作 (「水曜日に生産ライン 1 を実行する」など) が全体的なパフォーマンス (「合計出力」など) に与える影響を判断するのに時間がかかることがよくあります。さらにイライラするのは、特定の操作方法によって全体的なパフォーマンスが影響を受けることです。つまり、戦略を策定し、結果を事前に評価する場合、どれが良い選択でどれが悪いアイデアであるかを判断するのは難しいことがよくあります。このような複雑な問題では、潜在的なシステム状態の数が多いため、恐ろしい「次元の呪い」も引き起こされ、結果の不確実性がさらに悪化します。しかし、朗報としては、近年の研究室における強化学習の優れた成果により、このような困難な問題を解決できる明るい希望がもたらされているということです。

これまで、強化学習の優れた性能は、主にボードゲームやビデオゲームの分野で実証されてきました。強化学習システムは、画面上の画像とゲームスコアというたった 2 つの入力だけで、さまざまな Atari ゲームで人間のプレイヤーをあっという間に打ち負かし、AI コミュニティ全体に深い印象を残しました。この優れたシステムは、ロンドンを拠点とする AI 研究機関 DeepMind によって 2013 年に作成されました。その後、DeepMind は、囲碁の大会で世界のトッププレイヤーを簡単に打ち負かすことができる AlphaGo エージェントから始めて、一連の強化学習システム (エージェントとも呼ばれる) を構築しました。 2015年から2017年にかけての一連の偉業により、強化学習の名は世界に広まりました。数え切れないほどのファンを持ち、高度な複雑性と中長期的な戦略的思考が求められる頭脳スポーツである囲碁で優勝したことで、強化学習の将来的な応用についても人々の関心が高まっています。

それ以来、DeepMindとAI研究機関OpenAIは、StarCraftやDota 2といったゲーム向けのシステムをリリースしており、これらも世界トップクラスの人間プレイヤーと競争できるようになっている。厳密な戦略的思考、リソース管理、ゲーム内の複数のユニットの制御/調整を必要とするシナリオでは、強化学習が依然として優れたパフォーマンスを発揮するようです。

強化学習アルゴリズムに何百万ものゲームを完了させることで、システムは、どの戦略が本当に効果的か、そしてどの戦略がさまざまなタイプの対戦相手やプレイヤーに適しているかを徐々に把握します。強化学習アルゴリズムは、強力な計算能力に基づいて、多くの場合、複数のアイデアを採用し、さまざまな戦略の特定の効果を 1 つずつ試します。システムは、戦略空間の徹底的な探索、自己対決、複数の戦略の連携、人間のプレイヤーからの戦略の学習など、複数の方法を試して、戦略空間の探索と既存の優れた戦略の使用の間で迅速にバランスを取ります。簡単に言えば、多数の実験により、システムはさまざまなゲーム状態を探索できるようになり、複雑な評価方法により、AI システムは、妥当なゲーム状況下でどの戦略または操作が中期および長期にわたって良好なリターンを達成できるかを判断できるようになります。

しかし、現実世界でこれらのアルゴリズムを使用する上での主な障害は、何百万もの試行をすべて完了できる可能性が低いことです。幸いなことに、この問題には新しい解決策があります。まず、アプリケーションシナリオ (製造工場や市場シミュレーション環境など) のコンピューターシミュレーション環境を作成し、次に強化学習アルゴリズムを使用して最適な戦略を選別し、最後にまとめた最適な戦略を実際のシナリオに組み込み、さらにパラメータを調整して現実世界を反映させます。 OpenAIは2019年に注目すべきデモンストレーションを実施し、ロボットアームを訓練して片手でルービックキューブを解くことで、このシミュレーション訓練法の有効性を実証しました。

しかし、このアプローチが機能するためには、シミュレーション環境が根本的な問題を正確に表現する必要があります。ある意味では、解決すべき問題はシミュレーション環境内で何らかの形ですでに「解決」されており、システムのパフォーマンスに影響を与える外部要因は存在してはなりません。たとえば、シミュレートされたロボットアームが実際のロボットアームと大きく異なると、実際の操作中にアームが小さなルービックキューブを安定して保持できなくなります。この場合、モデル自体が正しくトレーニングされ、優れた耐干渉機能を備えていたとしても、目的の目標を達成することは不可能です。

これらの制限は、強化学習の実際の応用に大きな課題をもたらし、不快な驚きにつながる可能性もあります。初期の製造工場の例では、機器の 1 つをより高速または低速の機械に置き換えると、工場内の生産動向全体が変化する可能性があり、強化学習モデルの再トレーニングが必要になります。同じ状況はすべての強化制御システムに当てはまりますが、強化学習ソリューションに対する人々の期待は明らかに高いため、これらの予期しない問題を排除する方法を見つける必要があります。

いずれにせよ、強化学習を現実世界のシナリオに適用することは明るい未来を示しています。多くのスタートアップ企業がすでに強化学習技術を使用して、製造ロボットの制御 (Covariant、Osaro、Luffy)、生産計画の管理 (Instadeep)、企業の意思決定 (Secondmind)、物流 (Dorabot)、回路設計 (Instadeep)、自動運転車の制御 (Wayve、Waymo、Five AI)、ドローンの制御 (Amazon)、ヘッジファンドの運用 (Piit.ai)、さらにはパターン認識 AI システムでは簡単に処理できない現実世界のシナリオにも取り組んでいます。

さらに、大手ハイテク企業も強化学習の研究に多額の投資を行っています。 Googleは2015年にDeepMindを4億ポンド（約5億2500万ドル）で買収した。しかし、競争上の優位性を維持するため、両当事者は取引の詳細をこれ以上開示しなかった。

おそらく、現在の強化学習の応用はまだ少し不器用でつまずきやすいように見えますが、強力なコンピューティングパワーと強力な資金の二重のサポートにより、近い将来、市場で無視できない中核的な技術的成果になる可能性があります。

<<: 人工知能はデマですか？人工知能が日常生活にもたらす変化を感じられますか?

>>: 開発ボードはこのように使えますか？アメリカの学者は、義肢のサポートと各指の制御に Jetson Nano を使用しています