决策算法 [美]米凯尔·J. 科申德弗 蒂姆·A. 惠勒
定 价:149 元
- 作者:[美]米凯尔·J. 科申德弗, [美]蒂姆·A. 惠勒, [美]凯尔·H. 雷
- 出版时间:2024/8/1
- ISBN:9787111756583
- 出 版 社:机械工业出版社
- 中图法分类:C934
- 页码:
- 纸张:胶版纸
- 版次:
- 开本:16开
本书源于斯坦福大学的相关课程,主要介绍不确定状态下的决策算法,涵盖基本的数学问题和求解算法。本书共分为五个部分:首先解决在单个时间点上简单决策的不确定性和目标的推理问题;然后介绍随机环境中的序列决策问题;接着讨论模型不确定性,包括基于模型的方法和无模型的方法;之后讨论状态不确定性,包括jing确信念状态规划、离线信念状态规划、在线信念状态规划等;zui后讨论多智能体系统,涉及多智能体推理和协作智能体等。本书主要关注规划和强化学习,其中一些技术涉及监督学习和优化。书中的算法是用Julia编程语言实现的,并配有大量图表、示例和练习题。本书要求读者具备扎实的数学基础,适合计算机科学、数学、统计学、电气工程、航空航天等领域的读者阅读。
本书源于斯坦福大学的课程“不确定性状态下的决策”,主要介绍不确定状态下的决策算法,涵盖基本的数学问题和求解算法。本书主要关注规划和强化学习,其中一些技术涉及监督学习和优化。书中的算法是用Julia编程语言实现的,并配有大量图表、示例和练习题。
前言
Algorithms for Decision Making
本书广泛而深入地介绍不确定性状态下的决策算法,涵盖与决策相关的各种主题,阐述解决相关问题所涉及的基本数学公式和算法。本书还提供各类图表以及大量的应用示例和练习题,以便向读者传达各种方法所隐含的直观思想。
本书面向高年级本科生、研究生以及专业人士,要求读者具有扎实的数学基础,并假设读者已经掌握了多变量微积分、线性代数和概率论等方面的相关概念和知识。附录中提供了相关的参考资料。本书适用于数学、统计学、计算机科学、航空航天、电气工程和运筹学等学科领域。
算法是本书的基础。本书使用Julia程序设计语言来实现书中的算法。Julia程序设计语言非常适合以人类可读的形式来描述算法。算法实现的设计重点是可解释性,而不是执行的效率。对于工业应用程序等,则可以使用替代的实现方案以提高效率。读者可以免费使用本书中提供的所有代码片段,但前提是必须明确指出代码的来源。
Mykel JKochenderfer
Tim AWheeler
Kyle HWray
加利福尼亚州斯坦福
2022年2月28日
米凯尔·J. 科申德弗
(Mykel J. Kochenderfer)
斯坦福大学航空航天系和计算机科学系副教授,智能系统实验室(SISL)主任。曾任职于麻省理工学院林肯实验室。目前主要研究用于设计鲁棒决策系统的算法和分析方法。他拥有爱丁堡大学博士学位。
蒂姆·A. 惠勒
(Tim A. Wheeler)
软件工程师,主要从事自动驾驶、控制和决策系统方面的研发工作。他拥有斯坦福大学博士学位。
凯尔·H. 雷
(Kyle H. Wray)
Robust AI 公司工程总监,曾任硅谷创新联盟实验室首席研究员,目前主要从事自主机器人的研发工作,致力于设计和实现机器人决策系统。他拥有马萨诸塞大学阿默斯特分校博士学位。
目录
Algorithms for Decision Making
译者序
前言
致谢
第1章导论1
11决策1
12应用2
121飞机防撞控制系统2
122自动驾驶控制系统2
123乳腺癌筛查2
124金融消费与投资组合配置3
125分布式森林火灾监控系统3
126火星科学探测3
13方法3
131显式编程4
132监督式学习4
133优化4
134规划4
135强化学习4
14自动化决策过程的历史4
141经济学5
142心理学6
143神经科学6
144计算机科学6
145工程7
146数学7
147运筹学8
15社会影响8
16本书组织结构9
161概率推理9
162序列问题9
163模型不确定性10
164状态不确定性10
165多智能体系统10
第一部分概率推理
第2章表示12
21信念度和概率12
22概率分布12
221离散概率分布13
222连续概率分布13
23联合分布16
231离散联合分布16
232连续联合分配19
24条件分布20
241离散条件模型21
242条件高斯模型21
243线性高斯模型22
244条件线性高斯模型22
245sigmoid模型22
246确定性变量22
25贝叶斯网络23
26条件独立性25
27本章小结26
28练习题27
第3章推理30
31贝叶斯网络中的推理30
32朴素贝叶斯模型中的推理33
33“和积”变量消除35
34信念传播36
35计算复杂度37
36直接抽样37
37似然加权抽样39
38吉布斯抽样41
39高斯模型中的推理43
310本章小结44
311练习题45
第4章参数学习49
41最大似然参数学习49
411类别分布的最大似然估计50
412高斯分布的最大似然估计50
413贝叶斯网络的最大似然估计51
42贝叶斯参数学习53
421二元分布的贝叶斯学习54
422类别分布的贝叶斯学习55
423贝叶斯网络的贝叶斯学习56
43非参数学习57
44缺失数据的学习58
441数据插值58
442期望最大化60
45本章小结62
46练习题62
第5章结构学习66
51贝叶斯网络评分66
52有向图搜索68
53马尔可夫等价类71
54部分有向图搜索72
55本章小结73
56练习题73
第6章简单决策75
61理性偏好上的约束75
62效用函数76
63效用诱导76
64最大期望效用原则78
65决策网络79
66信息价值81
67非理性82
68本章小结84
69练习题84
第二部分序列问题
第7章精确求解方法88
71马尔可夫决策过程88
72策略评估90
73值函数策略92
74策略迭代93
75值迭代94
76异步值迭代96
77线性规划方程98
78具有二次型奖励的线性系统99
79本章小结102
710练习题102
第8章近似值函数108
81参数化表示108
82最近邻109
83核平滑110
84线性插值112
85单纯形插值114
86线性回归116
87神经网络回归119
88本章小结119
89练习题120
第9章在线规划123
91滚动时域规划123
92基于预演的前瞻算法124
93正向搜索125
94分支定界法126
95稀疏抽样127
96蒙特卡罗树搜索128
97启发式搜索134
98标记启发式搜索136
99开环规划139
991确定性模型预测控制140
992鲁棒模型预测控制141
993多重预测模型预测控制142
910本章小结143
911练习题143
第10章策略搜索146
101近似策略评估146
102局部搜索147