強化学習は2020年にブレークスルーを達成するでしょうか?

強化学習は2020年にブレークスルーを達成するでしょうか?

強化学習は AI/ML の目標を達成するために不可欠ですが、克服すべきハードルがまだいくつかあります。信頼性とトレーニング データの削減という目標は 1 年以内に達成される可能性がありますが、強化学習は本質的に「ブラック ボックス」ソリューションであり、透明性の欠如により多くの疑問が生じます。

従来の機械学習、さらにはディープラーニングの教師あり学習や教師なし学習は、企業が現在人工知能/機械学習の分野に多額の投資を行い、そこから利益を得ている中核領域です。しかし、実際には、これらの技術は現在かなり成熟しており、利回り曲線は平坦化しています。

人工知能/機械学習の分野で次なる画期的な技術を探しているなら、その画期的な技術は強化学習から生まれることはほぼ間違いないでしょう。強化学習の分野には多大な努力を注ぐ必要がありますが、強化学習は商用化に適したツールになるために必要な標準化レベルにはまだ達していないと言っても過言ではありません。

ゲーム分野では報道に値する成功事例がかなりあり(Alpha Goなど)、自動運転の分野でもいくつかの成功事例があります。しかし、強化学習は一連の意思決定を伴う問題を解決するための頼りになる手法であるはずなのに、まだ私たちが求めるほどには優れていません。

前回の投稿では、マイクロソフトの強化学習分野の主任研究者である Romain Laroche 氏が述べた、強化学習を妨げる 2 つの欠点について取り上げました。

「それらは根本的に信頼できません。さらに悪いことに、強化学習プロセスのランダム性により、異なるランダムシードを使用した 2 回の実行結果が大きく異なる可能性があります。」

「結果を得るには何十億ものサンプルが必要で、実際のアプリケーションではこれほど膨大な数のサンプルをサンプリングするのは現実的ではありません。」

私たちは、はるかに少ないデータ、限られた資金投資、実際的な制約の中でトレーニング問題に対処する有望な研究に焦点を当てています。しかし、残りの問題はさらに複雑です。

強化学習ソリューションはランダムシードで開始されるため、本質的には状態空間のランダム検索になります。 2 つの初期アルゴリズムが、最速の出口を見つけることを目標に、潜在的な解決策の巨大なジャングルにランダムに進入することを想像してください。どちらのソリューションも同じレベルのパフォーマンスを達成できるかもしれませんが、強化学習は悪名高いブラックボックスであり、システムが特定の一連の手順を実行することを選択した理由と方法を理解できません。

その重要性は、ガートナー社の最近のレポート「2020 年の 10 大戦略的テクノロジー トレンド」で言及されている 2 つの相反する目標によって強調されています。

私たちの注目を集めた 2 つの傾向は次のとおりです。

トレンド8: 自律型デバイス

「ドローン、ロボット、船舶、家電製品などのスマートデバイスは、人工知能を使用して人間に代わってタスクを実行します。このテクノロジーは、半インテリジェントから完全インテリジェントまでの範囲で動作し、空中、海上、陸上を含むさまざまな環境で動作します。スマートデバイスは、スタンドアロンデバイスから、2018年冬季オリンピックで使用されたドローンの群れのような協調的な群れへと移行します。」

このレポートでは言及されていないが、これを実現するには強力で信頼性の高い強化学習が必要になる。 AI/機械学習技術ではなく、物理的な動きのアルゴリズムに主に依存する非常に優れたロボット(ボストンダイナミクスなど)もありますが、業界では開発の次の段階に進むために強化学習が必要です。

2 番目の傾向は、強化学習にとってより困難になります。

トレンド5: 透明性とトレーサビリティ

「テクノロジーは信頼の危機を生み出しています。消費者が自分の情報がどのように収集され、使用されるかについてより懸念するようになるにつれて、組織はこうしたデータを保管および収集する際の責任が増大していることに気づき始めています。」

「さらに、AIと機械学習は人間の意思決定に代わるものとしてますます使用されるようになり、それが信頼の危機に発展し、説明可能なAIやAIガバナンスなどの概念の必要性を促進しました。」

私たちは GDPR や電子商取引を取り巻くプライバシーの問題を考える可能性が高いですが、実際には、これらのテクノロジーは、AI/ML がどのように意思決定を行うかについての私たちの理解に基づいて最終的に課題に直面することになるでしょう。

特に、強化学習ポリシー作成の確率的性質と、2 つの成功した強化学習プログラムがまったく異なる方法で同じ目標を達成できるという事実を考えると、これは克服するのが難しい課題になります。

信頼性の問題への対処

ロマン・ラロッシュ氏は、信頼性の問題を解決できる可能性のある 2 つの技術を提案しました。彼らの論文では、1 つはアンサンブル アプローチ (EBAS) を使用し、もう 1 つはチューニング パラメーターである Conditional value at Risk (CvaR) (最悪の実行の平均) を使用しています。どちらの手法も、強化学習の実行がシステムの障害を見つけて悪用するという自然な傾向を制限しながら、パフォーマンスを向上させ、トレーニング時間を短縮します。このシステムは実際に生産に導入された場合、成功する可能性もありますが、何らかの予期しない損害が発生する可能性があります。後者の技術は SPIBB と呼ばれ、Safe Policy Improvement with Baseline Bootstrapping の略称です。

このアンサンブル法は機械学習と同じ概念を借用しており、遺伝的アルゴリズムの選択トレーニングで使用される検索プロセスに似ているため、非常に優れた結果が得られます。

EBAS アルゴリズムは、最終的なパフォーマンスを低下させることなく、より高速に学習します。

透明性?

信頼性の問題と、大量のトレーニング データが必要になるというその他の問題を解決しているようです。これは間違いなく透明性の問題につながるでしょう。例えば、自動運転車は死亡事故を受けて厳しい監視を受けるようになった。人間のオペレーターのミスに比べ、機械のミスに対する許容度は低くなります。

強化学習が 2020 年に大きな貢献を果たすことは間違いありませんが、実証済みで商業的に受け入れられるソリューションを実現する上での障害や、透明性の欠如によって生じる抵抗は、1 年で完全に解決される可能性は低いでしょう。

<<:  2020年に注目すべき8つのAIトレンド

>>:  Pythonを全く知らなかった私がAIエンジニアになるまでに2年かかりました

推薦する

2021 年と自動化: 完璧な組み合わせ?

[[405206]]時が経つにつれて、技術は変化してきました。自動化に関しては、今年は徐々に成果が...

...

モジュール式の機械学習システムで十分でしょうか?ベンジオの教師と生徒が答えを教えてくれます

ディープラーニングの研究者は、神経科学と認知科学からインスピレーションを得ています。隠れユニットや入...

...

...

IBMは今後5年間で全人類に大きな影響を与える5つの主要な技術革新を発表

海外メディアの報道によると、IBMは3月19日に「Five-for-Five」レポートを発表し、世界...

AIプログラミングは原作者を打ち負かす。プログラマー:私が書いたプログラムのせいで失業した

ブルームバーグとインテル研究所の研究者2人が、遺伝的アルゴリズムとチューリング完全な言語を使用して、...

人間を機械に置き換える流れはますます激しくなっており、この2つの発展点は無視できません。

近年、伝統産業の変革の要求が継続的に解放されるにつれて、人間を機械に置き換えることが重要なトレンドに...

アリババAIチームが米国CES展示会に参加、外国人は新たな4大発明のアップグレードを賞賛!

毎年恒例の国際コンシューマー・エレクトロニクス・ショー(CES)が始まったため、ラスベガス・ストリッ...

...

深海か青い海か?自律型水中ロボットが急速に発展

科学技術の継続的な発展と革新が生産性の継続的な進歩を推進しています。産業革命以来、機械化された作業は...

AI 転移学習はどのように機能しますか? AI モデルとトレーニング プロセスでどのような役割を果たすのでしょうか?

今日、AI プログラムは、写真やビデオ内の顔や物体を認識し、音声をリアルタイムで書き起こし、X 線ス...

2019年の人工知能予測

[[253703]]プライバシーやデータバイアス規制などの問題から、モデルのトレーニングやセルフサー...