定量評価、アルゴリズム拡張：強化学習研究の10原則

[[252430]]

ビッグデータダイジェスト制作

編纂者：江宝尚

今年 9 月に開催された Deep Learning Indaba 2018 Summit では、多くの有益な情報が得られました。昨日、自然言語処理に関する 27 人の著名人からの素晴らしい質問と回答をまとめました。今日は、強化学習の 10 の原則のリストをまとめます。これらは強化学習に役立つだけでなく、機械学習の研究にも参考になります。

これらの 10 の原則は、インサイトデータ解析研究センターの博士課程の学生であるセバスチャンルーダー氏が、カンファレンス中のデビッドシルバー氏の報告に基づいてまとめたものです。ルーダー氏は独自の分析に加え、自ら撮影した写真も公開しました。

1. 評価が進歩を促す

定量的な評価が進歩を促進します。評価報酬の選択によって、進捗の方向が決まります。評価基準が目標と密接に関連していること、および主観的な評価（人間の被験者など）を避けることが重要です。もう 1 つのポイントは、二重 Q 学習は単一 Q 学習よりも優れているということです。これは、後者の方がバイアスを削減できるためです。

2. アルゴリズムのスケーラビリティが成功を左右する

パフォーマンスの上限を回避するには、アルゴリズムのスケーリング方法が非常に重要です。ディープラーニングは効率的に拡張できるため優れていますが、サンプル効率も同様に重要です。

アルゴリズムのスケーラビリティはリソースに依存し、アルゴリズムのスケーラビリティがアルゴリズムの成功を決定します。では、リソースが増えるとパフォーマンスはどのように向上するのでしょうか。ここでのリソースとは、コンピューティング、メモリ、またはデータを指すことに注意してください。

3. 汎用性、つまり他のタスクにおけるアルゴリズムのパフォーマンスが非常に重要である

重要なのは、挑戦的なタスクのセットを設計することです。つまり、さまざまな新しいタスクを評価する必要があります。現在のタスクをやり過ぎないようにしてください。

4. エージェントの経験を信頼する

人間の専門知識に頼らず、設計された機能にも頼らないでください。データが限られている場合、ドメインの専門知識と帰納的バイアスは非常に重要です。

いくつかのタスクは完了不可能に思えるかもしれませんが、そこから多くのことを学ぶことができるはずです。この種のタスクまたはプロジェクトは通常、次の 3 つのポイントを満たします。

RL の根本的な問題を受け入れるのは難しいです。
AIの根本的な問題
努力する価値は十分あります

5. ステータスは主観的であるべき

状態は、環境の観点から定義されるのではなく、モデルの状態、つまり RNN の隠し状態として確立される必要があります。エージェントの主観的な世界観だけが重要です。達成される効果は非常に限られるため、外部の現実について推論しないでください。

6. 制御フロー

エージェントはデータフローとエクスペリエンスに影響します。エージェントは制御環境にアクセスできる必要があります。重要なのは、報酬を最大化するだけでなく、フローに対する制御を確立することです。

7. 価値関数が世界を形作る

価値関数は、現在の状況と将来の状況を効果的に要約します。多値関数を使用すると、世界のさまざまな側面をモデル化できます。フロー制御に役立ちます。

8. 想像上の経験から学ぶ

次に何を計画しますか? 同様に、RL アルゴリズムは、Alphago の MCTS や価値関数の使用など、想像上の経験から学習できます。

9. 関数近似値の使用

アルゴリズムの複雑さはニューラルネットワークアーキテクチャに統合でき、MCTS、階層制御なども NN を使用してモデル化できます。次に、モデルから何を学んだのかを本当に理解する必要があります。

10. 学ぶことを学ぶ

メタ学習を習得すれば、ネットワークアーキテクチャを手動で設定する必要がなくなり、すべてがエンドツーエンドの学習になります。つまり、ニューラルネットワークは、人間の介入をできるだけ少なくして物事を処理することを目的としています。ただし、帰納的バイアスは依然として有用であるはずです。

ブログ

ディープラーニングにも格闘技カンファレンスがある！ 8つのテクノロジーの巨人：私の学派はAGIを実現できる

ブログ

人工知能、モノのインターネット、新エネルギーなどへの投資ガイド。

ブログ

定量評価、アルゴリズム拡張：強化学習研究の10原則

2021年に理解すべき5つのAIコンセプト

東大大学の中国人博士が「心の理論」を使ってテキサスホールデムをプレイすることを GPT-4 に教えました。従来のアルゴリズムを上回り、人間の初心者を圧倒する

ガートナー、2024年以降のIT組織とユーザーに関する重要な予測を発表

ソフトウェア開発に GenAI モデルを安全に使用する手順

ニューラルネットワークモデルの構築に適した最適化アルゴリズムはどれですか? 35,000件の検査でわかる

ディープラーニングにも格闘技カンファレンスがある！ 8つのテクノロジーの巨人：私の学派はAGIを実現できる

人工知能、モノのインターネット、新エネルギーなどへの投資ガイド。

推薦する

ディープラーニングモデルアーキテクチャを視覚化する6つの一般的な方法の概要

GPT-4はバードに追い抜かれても納得せず、最新モデルが市場に投入された

AからZまで、人工知能が世界を変える26のキーワード

YOLOの父は抗議を表明するためにCV業界を辞め、軍事やプライバシーのスヌーピングにAIアルゴリズムを使用することを拒否

MITチームは、わずか5つの部品を使用してマイクロロボットを組み立てました。このロボットは、「変形」によってさまざまな機能を実現することもできます。

自動運転のための不確実性を考慮した動作計画：強化学習ベースのアプローチ

日本は人間支援ロボットの世界標準を確立したいと考えている

mPLUG-Damo アカデミーオープンソースマルチモーダル対話モデル技術とアプリケーション分析

インテリジェントオートメーション: ロボティックプロセスオートメーションの未来

Nvidiaのアルゴリズムが破られ、RTX30シリーズはマイニング計算能力を100%回復：グラフィックカードの値下げは終わったのか？

AIとRPA：両者の連携方法と、ビジネスに両方が必要な理由