游客,欢迎访问首都图书馆!
帮助中心
您的建议
False
本馆资源
本馆资源
高级检索
全部
题名
ISBN
作者
出版社
电子图书
首页
本馆资源
首图冬奥主题书目
数字资源平台
>
工学
>
控制科学与工程
>
模式识别与智能系统
>
深入浅出强化学习
深入浅出强化学习
AlphaGo大败柯洁的强化学习技术!AI领域大牛深度好评!
AlphaGo大败柯洁的强化学习技术!AI领域大牛深度好评!
作者:
郭宪
,
方勇纯
编著
出版社:
电子工业出版社
出版时间:
2018.01
ISBN:
978-7-121-32918-0
主题:
人工智能
丛编:
博文视点AI系列
中图法分类号:
TP18
【中图法分类】
T 工业技术
>
TP自动化技术、计算机技术
>
TP1自动化基础理论
【学科分类】
工学
>
控制科学与工程
>
模式识别与智能系统
建议阅读终端:
随书光盘:
畅想随书资源
在线试读
PDF格式
编辑推荐
简介
目录
评论
零基础入门了解AlphaGo大败柯洁的强化学习技术!AI领域大牛深度好评!
简介
阿法狗击败世界围棋冠军柯洁,标志着人工智能进入一个新的阶段。阿法狗背后的核心算法——深度强化学习——成为继深度学习之后广泛受人关注的前沿热点。本书由浅入深地阐述了强化学习的基础理念与实践,包括数学基础、强化学习基本原理、强化学习的应用与实践,是一本零基础的入门学习书籍。
目录
封面
内容简介
版权页
推荐序一
推荐序二
推荐序三
推荐序四
推荐序五
前言
目录
1 绪论
1.1 这是一本什么书
1.2 强化学习可以解决什么问题
1.3 强化学习如何解决问题
1.4 强化学习算法分类及发展趋势
1.5 强化学习仿真环境构建
1.6 本书主要内容及安排
第一篇 强化学习基础
2 马尔科夫决策过程
2.1 马尔科夫决策过程理论讲解
2.2 MDP中的概率学基础讲解
2.3 基于gym的MDP实例讲解
2.4 习题
3 基于模型的动态规划方法
3.1 基于模型的动态规划方法理论
3.2 动态规划中的数学基础讲解
3.3 基于gym的编程实例
3.4 最优控制与强化学习比较
3.5 习题
第二篇 基于值函数的强化学习方法
4 基于蒙特卡罗的强化学习方法
4.1 基于蒙特卡罗方法的理论
4.2 统计学基础知识
4.3 基于Python的编程实例
4.4 习题
5 基于时间差分的强化学习方法
5.1 基于时间差分强化学习算法理论讲解
5.2 基于Python和gym的编程实例
5.3 习题
6 基于值函数逼近的强化学习方法
6.1 基于值函数逼近的理论讲解
6.2 DQN及其变种
6.3 函数逼近方法
6.4 习题
第三篇 基于直接策略搜索的强化学习方法
7 基于策略梯度的强化学习方法
7.1 基于策略梯度的强化学习方法理论讲解
7.2 基于gym和TensorFlow的策略梯度算法实现
7.3 习题
8 基于置信域策略优化的强化学习方法
8.1 理论基础
8.2 TRPO中的数学知识
8.3 习题
9 基于确定性策略搜索的强化学习方法
9.1 理论基础
9.2 习题
10 基于引导策略搜索的强化学习方法
10.1 理论基础
10.2 GPS中涉及的数学基础
10.3 习题
第四篇 强化学习研究及前沿
11 逆向强化学习
11.1 概述
11.2 基于最大边际的逆向强化学习
11.3 基于最大熵的逆向强化学习
11.4 习题
12 组合策略梯度和值函数方法
13 值迭代网络
13.1 为什么要提出值迭代网络
13.2 值迭代网络
14 基于模型的强化学习方法:PILCO及其扩展
14.1 概述
14.2 PILCO
14.3 滤波PILCO和探索PILCO
14.4 深度PILCO
后记
参考文献
封底
展开 ∨
评论(0)
评分:
1
2
3
4
5
评价:
请输入评论信息
5
0
/255
我要评论
最新上架
让自己成为上帝.02历届奥运会比赛成绩
刘烨编著
让自己成为上帝.下奥运比赛项目介绍
刘烨编著
让自己成为上帝.1奥运体育人物
刘烨编著
冬后有春
莫昌楦著
百幅书法篆刻诗作集:京动天下 奥运永恒
柏青著
让自己成为上帝.1历届奥运会举办始末
刘烨编著
让自己成为上帝.2历届奥运会举办始末
刘烨编著
让自己成为上帝.历届奥运会回顾
刘烨编著
让自己成为上帝.历届奥运会简介
刘烨编著
奥运英语阅读
张晨晨编著
Loading...