スタンフォード大学の新刊「Decision Algorithms」が発売され、400ページを超える全文PDFが無料でダウンロードできます!

スタンフォード大学の新刊「Decision Algorithms」が発売され、400ページを超える全文PDFが無料でダウンロードできます!

  [[379994]]

最近、スタンフォード大学は、Mykel J. Kochenderfer 教授が中心となって執筆した新しい書籍「意思決定のためのアルゴリズム」を出版しました。

スタンフォード大学インテリジェントシステム研究所(SISL)は、Mykel J. Kochenderfer教授が率いており、毎年、コンピュータ分野のトップカンファレンスやジャーナルで実りある成果を上げています。2021年だけでも、同研究所はAAAI2021、AAMAS2021、AIAA Journalなどのトップカンファレンスやジャーナルに9本の論文を発表しました。

ここで簡単に紹介すると、スタンフォード インテリジェント システム ラボラトリー (SISL) の研究は主に、堅牢な意思決定システムを設計するための高度なアルゴリズムと分析手法に関するものです。

当研究所は、安全性と効率性を維持しながら不確実な動的環境で意思決定を必要とする航空交通管制システム、無人航空機、その他の航空宇宙アプリケーションなどの分野に特に興味を持っています。

SISL は、高次元の確率的問題から最適なポリシー決定を導き出す方法に重点を置いて、効率的な計算方法の研究に取り組んでいます。

[[379995]]

写真:SISLメンバーが集合写真を撮る

この新しい本「Decision Algorithms」では、主に不確実な状況下での最適な意思決定アルゴリズムを紹介しています。

この本では、意思決定に関連するさまざまなトピックを取り上げ、問題の根底にある数式とそれを解決するためのアルゴリズムを紹介します。さらに、さまざまな方法の背後にある直感を伝えるために、多くの例と演習が本書に追加されています。

この本は、上級の学部生、大学院生、および専門家を対象としています。この本のコンテンツを理解するには、読者は一定レベルの数学の知識を持ち、多変数微積分、線形代数、確率の概念を理解している必要があります。

この教科書の基礎はアルゴリズムであり、すべて Julia プログラミング言語で実装されています。さらに、付録にはいくつかのレビュー資料が提供されています。

この本から最も恩恵を受ける分野は、数学、統計学、コンピューターサイエンス、航空宇宙、電気工学、オペレーションズリサーチです。

まず、この本のいくつかの章を詳しく説明しましょう。

第1章 確率的推論

主に確率的推論について説明しており、主に以下のセクションが含まれます。

  • 表現
  • 推論
  • パラメータ学習
  • 構造学習
  • シンプルな決断

確率分布を使用して不確実性を表現する方法の議論から始めて、モデルの構築方法、モデルを使用して推論を行う方法、データからモデルのパラメータと構造を学習する方法について説明します。

次に著者は効用理論の基礎を紹介し、それが不確実性の下での合理的な意思決定にどのように役立つかを示します。効用理論は確率的グラフィカルモデルに組み込むことができ、いわゆる意思決定ネットワークを形成できます。この章では、単一ステップの意思決定に焦点を当て、順次意思決定の問題については本書の次の部分で説明します。

第2章 シーケンス問題

この本の第 2 章では、主に次のセクションを含む連続問題について主に説明します。

  • 正確な解決方法
  • 近似値関数
  • オンラインプランニング
  • ポリシー検索
  • ポリシー勾配推定
  • ポリシー勾配最適化
  • 俳優批評家メソッド
  • ポリシー検証

前の章では、特定の時点で 1 つの決定を行う必要があると想定していましたが、多くの重要な問題では、一連の決定を行う必要があります。

この場合、最大期待効用原則は依然として適用されますが、順次設定での最適な意思決定には、将来の順次操作と観察についての推論が必要です。

この章では、確率的環境における順次意思決定の問題について説明します。著者らは、モデルが既知であり、環境が完全に観測可能であるという仮定の下で、順次決定問題の一般的な定式化に焦点を当てます。次の章では、著者はこれら 2 つの仮定を緩和します。

この章では、まず、順次決定問題の標準的な数学モデルであるマルコフ決定プロセスを紹介し、主に、正確な解を見つけるためのいくつかの方法、オフラインおよびオンラインの近似解法の集合、およびパラメータ化された決定戦略空間の直接検索を伴う方法について説明します。

第3章: モデルの不確実性

主にモデルの不確実性について説明しており、主に以下のセクションが含まれます。

  • 探索と開発
  • モデルベースの手法
  • モデルフリー法
  • 模倣学習

本書では、順次決定問題について議論する場合、移転モデルと報酬モデルが既知であると想定しています。しかし、多くの問題ではこれらのモデルは完全にはわかっておらず、エージェントは経験を通じてさらなるアクションを学習する必要があります。

エージェントは、状態遷移報酬の形で行動の結果を観察することで、長期的な報酬の蓄積を最大化する行動を選択します。このモデルの不確実性の問題を解決することは、強化学習の分野のトピックであり、この本のこの部分の焦点です。

この章では、モデルの不確実性に対処する上でのいくつかの課題について説明します。

まず、エージェントは環境の探索と経験に基づく知識の活用の間で慎重にバランスを取る必要があります。

第二に、報酬は重要な決定が下されてからかなり経ってから得られる場合もあるため、後の報酬は以前の決定の中で分配されなければなりません。

第三に、エージェントは限られた経験から一般化する必要があります。この目的のために、著者らはこれらの課題に対処するための理論といくつかの重要なアルゴリズムをレビューします。

第4章 状態の不確実性

主に状態の不確実性について説明しており、主に以下のセクションが含まれます。

  • 信念
  • 正確なベリフ州計画
  • オフラインの信念状態計画
  • オンラインベリフ州計画
  • コントローラの抽象化

最初の数章では、結果として生じる状態とモデルの不確実性を含む、遷移関数の不確実性について説明します。この章では、著者らは不確実性を国家の領域にまで拡張しています。

第 19 章では、過去の観察とアクション シーケンスに基づいて信念の分布を更新する方法を示します。第 20 章では、戦略を最適化するための正確な方法について説明します。

第 21 章では、正確な方法よりも大規模な問題に適したさまざまなオフライン近似法について説明します。

第 22 章では、部分的な観測可能性に対応するためにオンライン近似法を拡張します。

第 23 章では、最適化戦略と方法を表す有限状態コントローラについて説明します。

第5章: マルチエージェントシステム

主にマルチエージェント システムについて説明しており、主に次のセクションが含まれます。

  • マルチエージェント推論
  • 連続問題
  • 状態の不確実性
  • 協力エージェント

これまでのところ、この本では主に単一のエージェントの観点から意思決定に取り組んできました。ここで説明した中核概念は、複数のエージェントが関与する問題に拡張されます。

マルチエージェント システムでは、他のエージェントを潜在的な味方または敵としてモデル化し、時間の経過とともにそれに応じて調整することができます。

第 24 章では、ゲームにおけるマルチエージェント推論を紹介し、単純な相互作用から均衡を計算する方法について概説します。

第 25 章では、時間の経過とともに相互作用する複数のエージェントのアルゴリズムを設計する方法について説明し、均衡収束よりも合理的な適応を優先する学習アルゴリズムについて説明します。

第 26 章では、状態の不確実性が問題の複雑さを大幅に増大させ、これらの領域に特有の課題と困難を強調しています。

第 27 章では、協調エージェントのさまざまなモデルとアルゴリズムに焦点を当てます。

上記は、この本の簡単な紹介です。ご興味のある方は、この本をじっくり読んで、全文をダウンロードしてください。こちらがウェブサイトのリンクです:

https://mykel.kochenderfer.com/textbooks/

<<:  快手が1兆ドル規模のパラメータ推奨ランキングモデルを発表

>>:  GPT-3とAlphaFold 2は2020年に衝撃を与えました。2021年のAIの最大のハイライトは何でしょうか?

ブログ    

推薦する

AMiner が発表: 2022 年に世界で最も影響力のある人工知能学者「AI 2000」

2022年1月25日、人工知能分野で世界で最も影響力のある学者の2022年リスト「AI 2000」...

人工知能が地震監視を新たな時代へ導く

[[388691]]被害の程度を軽減することは地震研究者にとって重要な目標です。破壊的な地震が発生し...

4K 品質の 3D 合成ビデオはもはやスライドショーにならず、新しい方法でレンダリング速度が 30 倍以上向上

4K 品質の 60 フレームのビデオは一部のアプリでメンバーシップがなければ視聴できませんが、AI ...

人工知能の未来を見据えて、いつかは遊ぶだけになる日が来るでしょう!

[[216218]]人工知能スピーカー2017年は人工知能が爆発的に発展した年であり、「人工知能元...

...

モデル入力は目に頼りません!中国人著者:強化学習は人間と同じ知覚能力を持つ

[[439504]]人間の適応力は恐ろしいですね!目の見えない人は目で世界を見ることはできませんが、...

顔認識にはリスクがあり、米国は全面的に禁止しているが、なぜ中国はこれほど広く推進しているのだろうか?

顔認識にはリスクがあり、米国は全面的に禁止しているが、なぜ中国はこれほど広く推進しているのだろうか?...

せっかちなGoogleのハードウェアから、中国と米国がAI商業化の問題をそれぞれどのように解決できるかまで

建国記念日の休日中は家にいて、Google カンファレンスを視聴しました。これらの製品のいくつかを見...

1000 以上の AI エージェントが復活、メタバースの OpenAI バージョンがリリースされる? ChatGPT+VR が「ウエストワールド」を 100% 復元

『ウエストワールド』のビデオゲーム版が現実になった。 YouTube ブロガーの Art from ...

疫病との戦いにおけるドローン:監視、空中管制、そして徹底的な説得

ドローンと聞いて何を思い浮かべますか?おそらくほとんどの人の答えは写真撮影でしょう。しかし、今回の疫...

自動化された機械学習は AI 研究の次の主流となるでしょうか?データサイエンティストの意見

自動化された機械学習は、過去 1 年間で大きな関心を集めるトピックになりました。 KDnuggets...

人工知能のこれら 5 つのトレンドは世界にどのような影響を与えるでしょうか?

人工知能はもはや未来の技術ではありません。私たちの日常の作業を自動化する機械はますます賢くなり、人工...

機械学習の導入を容易にする 6 つのツール

今日、多くのベンダーは、データインテリジェントなビジネスユーザーが AI テクノロジーを採用できるよ...

アルゴリズムの法則から法則のアルゴリズムへ、アルゴリズムの時代を巻き起こす

ビッグデータの出現、クラウド コンピューティング テクノロジーの成熟度の向上、ディープラーニング ア...

次世代の AI 人材をどう育成するか?

AI 人材とプロジェクト パイプラインを構築するには、教育的価値だけでなく技術的価値も必要です。そ...