強化学習の実際の応用例 10 選

強化学習の実際の応用例 10 選

強化学習では、報酬と罰のメカニズムを使用してエージェントをトレーニングします。エージェントは正しい行動に対して報酬を受け、間違った行動に対しては罰せられます。このようにして、エージェントは間違った動作を最小限に抑え、正しい動作を最大限にしようとします。

この記事では、強化学習の実際の応用に焦点を当てます。

自動運転への応用

自動運転分野における深層強化学習の応用については多くの論文で言及されています。自動運転では、場所によって異なる速度制限、走行可能なエリアかどうか、障害物をどのように回避するかなど、考慮すべき問題が数多くあります。

軌道最適化、動作計画、動的経路、最適制御、高速道路でのシナリオ学習戦略など、一部の自動運転タスクは強化学習と組み合わせることができます。

たとえば、自動駐車戦略により自動駐車を完了できます。車線変更は Q 学習を使用して実現でき、追い越しは追い越し学習戦略を使用して、追い越し中に障害物を回避し、安定した速度を維持することで実現できます。

AWS DeepRacer は、実際のトラック上で強化学習アルゴリズムのパフォーマンスをテストするために設計された自律型レーシングカーです。カメラを使用してトラックを視覚化し、強化学習モデルを使用してスロットルとステアリングを制御します。

Wayve.ai は、強化学習を適用して、日中に自動車の運転方法を訓練することに成功しました。彼らは、車線追従タスクに取り組むために、深層強化学習アルゴリズムを使用しました。ネットワーク構造は、4 つの畳み込み層と 3 つの完全接続層を持つディープ ニューラル ネットワークです。例を図に示します。中央の画像はドライバーの視点を示しています。

産業オートメーションにおける強化学習の応用

産業オートメーションでは、強化学習ベースのロボットがさまざまなタスクを実行するために使用されます。これらのロボットは人間よりも効率的であるだけでなく、危険な作業も実行できます。

Deepmind が AI エージェントを使用して Google データセンターを冷却した事例は、成功した応用例です。このようにして、エネルギー消費が 40% 節約されました。現在、これらのデータ センターは人工知能システムによって完全に制御されており、少数のデータ センターの専門家を除いて、人間の介入はほとんど必要ありません。システムは次のように動作します。

  • 5分ごとにデータセンターからデータのスナップショットが取得され、ディープニューラルネットワークに送られます。
  • さまざまな組み合わせが将来のエネルギー消費にどのような影響を与えるかを予測する
  • 安全基準を遵守しながら、最小限の電力消費で対策を講じる
  • 対応する対策をデータセンターに送信し、操作を実行します

もちろん、具体的な対策は依然として地方の管理システムによって完了します。

金融取引における強化学習の応用

教師あり時系列モデルは、将来の売上を予測したり、株価を予測したりするために使用できます。ただし、これらのモデルでは、特定の株価でどのようなアクションを取るべきかを決定できません。ここで強化学習 (RL) が役立ちます。市場ベンチマークを使用して RL モデルを評価し、RL エージェントが最適なリターンを確保するために保有、購入、または売却の適切な決定を下せるようにします。

強化学習により、金融取引では、従来のようにアナリストがあらゆる決定を下す必要がなくなり、機械による自動意思決定が真に実現されます。たとえば、IBM は、各金融取引の損失または利益に基づいて報酬関数を調整する、金融取引用の強力な強化学習プラットフォームを構築しました。

自然言語処理 (NLP) における強化学習の応用

RL は、テキスト要約、質問回答、機械翻訳などの NLP タスクに使用できます。

Eunsol Choi、Daniel Hewlett、Jakob Uszkoret は論文の中で、長文の質問への回答に RL ベースのアプローチを提案しました。具体的には、まず文書から質問に関連するいくつかの文章を選択し、次に選択した文章と質問を組み合わせて、RNN を通じて回答を生成します。

この論文では、教師あり学習と強化学習を組み合わせて抽象的なテキスト要約を生成します。論文の著者である Romain Paulus、Caiming Xiong、Richard Socher らは、要約生成における注意ベースの RNN エンコーダー/デコーダー モデルが直面する問題を解決したいと考えています。この論文では、入力に注意を集中し、継続的に出力を生成する新しい内部注意ニューラル ネットワークを提案し、モデルのトレーニングには教師あり学習と強化学習が使用されます。

機械翻訳に関しては、コロラド大学とメリーランド大学の研究者が、単語が信頼できるかどうかを予測し、RLを使用して翻訳を支援するためにさらに情報が必要かどうかを判断できる強化学習ベースの機械翻訳モデルを提案しました。

スタンフォード大学、オハイオ州立大学、マイクロソフトリサーチの研究者らは、対話生成タスクに使用できる Deep-RL を提案しました。 Deep-RL は 2 つの仮想エージェントを使用して会話をシミュレートし、複数回の会話で将来の報酬をモデル化することを学習します。同時に、ポリシー勾配法を適用して、一貫性、情報の豊富さ、簡潔さなど、高品質の会話がより高い報酬を獲得できるようにします。

ヘルスケアにおける強化学習の応用

ヘルスケア分野では、RL システムは患者に治療戦略を提供することしかできません。このシステムは、生物システムの数学モデルなどの事前情報を必要とせずに過去の経験を使用して最適な戦略を見つけることができるため、RL ベースのシステムをより広範囲に適用できます。

ヘルスケアにおける RL ベースの動的治療ソリューション (DTR) には、慢性疾患や重篤な治療、自動医療診断、その他さまざまな分野が含まれます。

DTR の入力は患者の臨床観察および評価データのセットであり、出力は各段階の治療計画です。 RL を通じて、DTR は特定の時間に患者に最適な治療計画を決定し、時間に応じた意思決定を実現できます。

ヘルスケアでは、RL 手法は治療の遅延効果に基づいて長期的な結果を改善するためにも使用できます。

慢性疾患の場合、RL メソッドを使用して最適な DTR を発見および生成することもできます。

この記事では、ヘルスケアにおける RL の応用について詳しく説明します。

強化学習の工学への応用

エンジニアリングの分野では、Facebook は、強化学習を使用して大規模な生産システムを最適化するオープンソースの強化学習プラットフォームである Horizo​​n を提案しました。 Facebook 社内では、Horizo​​n は次の目的で使用されています。

  • パーソナライズされたガイド
  • より意味のある通知をユーザーに送信する
  • ビデオストリーミング品質を最適化する

Horizo​​n の主なプロセスは次のとおりです。

  • シミュレーション環境
  • データ処理のための分散データプラットフォーム
  • モデルのトレーニングと出力

典型的な例としては、強化学習により、ビデオ バッファの状態と他の機械学習システムの推定値に基づいて、低ビットレートまたは高ビットレートのビデオをユーザーに選択的に提供できることが挙げられます。

Horizo​​n は次の問題も処理できます。

  • 大規模展開
  • 特徴の正規化
  • 分散学習
  • 高次元データや数千の特徴を含むデータセットなど、非常に大規模なデータの処理と提供。

ニュース推奨における強化学習の応用

ニュース推奨の分野では、ユーザーの好みは静的なものではなく、コメントと(履歴の)好みのみに基づいてユーザーにニュースを推奨することは永続的な解決策ではありません。強化学習ベースのシステムは、読者のフィードバックを動的に追跡し、推奨事項を更新できます。

このようなシステムを構築するには、ニュースの特徴、読者の特徴、コンテキストの特徴、読者が読むニュースの特徴を取得する必要があります。これらのうち、ニュース機能にはコンテンツ、タイトル、発行元などが含まれますが、これらに限定されません。読者機能とは、クリックや共有など、読者がコンテンツとやり取りする方法を指します。コンテキスト機能には、ニュースの日時や鮮度が含まれます。次に、ユーザーの行動に基づいて報酬関数を定義し、RL モデルをトレーニングします。

ゲームにおける強化学習の応用

RL のゲーム分野への応用は大きな注目を集め、大きな成功を収めています。最も典型的な例は、数年前によく知られた AlphaGoZero です。強化学習を通じて、AlphaGoZero は囲碁をゼロから学び、自ら学習することができました。 40日間のトレーニングを経て、AlphaGoZeroは世界ランキング1位のKe Jieを上回りました。このモデルにはニューラル ネットワークが 1 つだけ含まれており、入力機能として黒と白のチェスの駒のみを使用します。ネットワークは単一であるため、モンテカルロ展開なしで位置の移動とサンプルの移動を評価するために、単純なツリー検索アルゴリズムが使用されます。

リアルタイム入札:広告マーケティングにおける強化学習の応用

この論文では、マルチエージェント強化学習に基づくリアルタイム入札戦略を提案します。多数の広告主をクラスター化し、各クラスターに戦略的な入札エージェントを割り当てて入札を実施します。同時に、広告主間の競争と協力のバランスをとるために、この論文では分散協調マルチエージェント入札 (DCMAB) も提案しています。

マーケティングでは、適切なターゲット グループを選択することで高い利益が得られるため、正確な個人ポジショニングが重要です。この論文では、中国最大の電子商取引プラットフォームであるTaobaoを研究対象とし、上記のマルチエージェント強化学習が既存のシングルエージェント強化学習法よりも優れていることを示しています。

ロボット制御における強化学習の応用

ディープラーニングと強化学習の手法を通じてロボットをトレーニングすることで、トレーニングでは登場しなかった物体も含め、さまざまな物体を掴めるようになります。そのため、組立ラインでの製品製造に使用できます。

上記のアイデアは、大規模な分散最適化とディープ Q 学習のバリエーションである QT-Opt を組み合わせることで実現されます。その中で、QT-Opt は連続的なアクション空間操作をサポートしており、ロボット工学の問題を簡単に処理できます。実際には、モデルは最初にオフラインでトレーニングされ、その後実際のロボットに展開されて微調整されます。

クローリングタスクでは、Google AI は 4 か月を費やし、7 台のロボットを使用して 800 ロボット時間を実行しました。

実験では、700 回の実験で、QT-Opt 法では未知の物体をつかむ成功率が 96% であるのに対し、従来の方法では成功率が 78% に過ぎないことが示されています。

要約する

強化学習は、広範囲にわたる研究に値する非常に興味深い分野です。RL 技術の進歩とさまざまな現実世界の分野への応用は、より大きな成功を収めるはずです。

この記事では、強化学習のさまざまな応用分野について簡単に紹介しました。これがあなたの好奇心を刺激し、RL に対する愛と研究のきっかけになれば幸いです。さらに詳しく知りたい場合は、次の 2 つのプロジェクトを確認することをお勧めします: https://github.com/aikorea/awesome-rl、https://github.com/dennybritz/reinforcement-learning。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

<<:  AI を活用することで、銀行は年間 1 兆ドルの追加収益を得ることができる | マッキンゼーの最新調査レポート

>>:  Python 自然言語処理 (NLP) を使用して要約を作成する方法

ブログ    

推薦する

「顔認証」の時代に「顔を守る」には?代表者と議員は顔認識に関する特別立法を実施し、不正なデータ収集を是正することを提案した。

「顔認証」の時代、あなたの「顔」をどう守るか? 2021年の全国「両会」では、顔認識によって生成さ...

Aurora の 1 億ドルの買収の背後にあるもの: RISC-V の創始者が「中国製チップ」を開発するという野望

2月27日、米国の著名な自動運転企業であるAuroraは、ライダーチップ企業OURSを1億ドルで買収...

機械学習、人工知能、ディープラーニングの関係は何ですか?ついに誰かが明らかにした

「機械学習」、「人工知能」、「ディープラーニング」という 3 つの用語は混同されることが多いですが、...

冬季オリンピックは人工知能産業の導入を加速し、デジタル経済の徹底的な発展を推進するだろう

人工知能は、この冬季オリンピックに知能の要素を加え、競技の効率とレベルを向上させ、テクノロジーに満ち...

Nature のサブ出版物: 新しいアルゴリズムは、米国の 8 つの都市で 90% の精度で、1 週間前に 2 ブロック以内の犯罪を予測できます。

シカゴ大学の助教授イシャヌ・チャトパディアイ氏は、彼と彼のチームが「アーバン・ツイン」モデルを作成し...

一枚の写真で「踊り続ける」ことができ、SHERFは人間の神経放射場を駆動できる新しい方法を一般化することができます

人体神経放射線分野の目標は、2D 人体画像から高品質の 3D デジタル人間を復元して駆動し、それによ...

700 を超えるチームが登録し、「ICV アルゴリズム研究タスクの第 1 バッチ」の登録フェーズが成功裏に終了しました。

中国の自動車産業は、インテリジェンスとネットワーキングを核として、競争の後半期に突入しています。新世...

4分! OpenAIのロボットハンドは、プログラミングなしで完全に独学で、片手でルービックキューブを解くことを学習しました。

[[279350]] OpenAI のロボットハンドは片手でルービックキューブを解くことを学習し、...

これらの比較的成功している人工知能アプリケーションを使用したことがありますか?

人工知能に関して言えば、人気の科学映画をいくつか挙げなければなりません。多くの映画では、人工知能ロボ...

2021 年のトップ 10 機械学習ライブラリ

今は人工知能爆発の時代です。AIと機械学習は広く普及しています。もちろん、機械学習の分野で最も人気の...

「Nuwa」のAIバージョンが登場!テキストから画像とビデオの生成: 8 つのタスクに 1 つのモデル

最近、視覚合成というタスクが大きな注目を集めています。 NVIDIA の GauGAN は数日前にバ...

...

強力な顔認識システムを騙すには、額に紙を貼り付けてください。 Huawei製、Face IDは終了

[[275013]]額にお守りを貼るとAIがあなたを認識できなくなるって知っていましたか?たとえば、...

海外メディアがFacebookのコンテンツクリーンアップ作業を暴露:AIでも完了できない作業

AI は見たものからしか学習できません。シュローファー氏と150人以上のエンジニアリング専門家からな...

...