David Silver 强化学习 3 动态规划解决MDP的Planning问题

2017-09-21

简介 Introduction

当问题具有下列特性时，通常可以考虑使用动态规划来求解：

第一个特性是一个复杂问题的最优解由数个小问题的最优解构成，可以通过寻找子问题的最优解来得到复杂问题的最优解；
子问题在复杂问题内重复出现，使得子问题的解可以被存储起来重复利用。

马尔可夫决策过程（MDP）具有上述两个属性：Bellman方程把问题递归为求解子问题，价值函数就相当于存储了一些子问题的解，可以复用。因此可以使用动态规划来求解MDP。

我们用动态规划算法来求解一类称为“规划 Planning”的问题。“规划”指的是在了解整个MDP的基础上求解最优策略，也就是清楚模型结构的基础上：包括状态行为空间、转换矩阵、奖励等。这类问题不是典型的强化学习问题，我们可以用规划来解决 Predict 和 Control 问题。

展开全文 >>

学徒学习 Apprenticeship learning via inverse reinforcement learning

2017-09-15

学徒学习是Ng（吴恩达）和Abbeel提出来的。学徒学习是这样：Agent从专家示例中学到回报函数，使得在该回报函数下所得到的最优策略在专家示例策略附近。

回报函数$R(s)$ 假设为：$R\left(s\right)=w^T\cdot\phi\left(s\right)$，其中$\phi(s)$为映射特征的基函数，可以为多项式基底，也可以为傅里叶基底。文中是以线性函数为基底。
逆向强化学习求的就是回报函数中的系数w。

展开全文 >>

David Silver 强化学习 2 MDP

2017-08-18

在强化学习中，马尔可夫决策过程（Markov decision process, MDP）是对完全可观测的环境进行描述的，也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。本讲是理解强化学习问题的理论基础。

马尔可夫过程 Markov Process

马尔可夫性 Markov Property

p_5

某一状态信息包含了所有相关的历史
只要当前状态可知，历史信息 history 就可以被丢弃
当前状态就可以决定未来

展开全文 >>

David Silver 强化学习 1 Introduction

2017-08-14

强化学习的特点(不同于其他机器学习)：

没有监督数据、只有奖励信号
奖励信号不一定是实时的，而很可能是延后的，有时甚至延后很多。
时间（序列）是一个重要因素
当前的行为影响后续接收到的数据

The RL Problem

奖励 Reward

一个Reward $R_{t}$ 是信号的反馈，是一个标量
它反映 Agent 在 t 时刻做得怎么样
Agent 的工作就是最大化累计奖励

强化学习主要基于这样的”奖励假设”：所有问题解决的目标都可以被描述成最大化累积奖励。
p_1

展开全文 >>

从Fictitious Play 到 NFSP

2017-07-27

博弈论

Normal-form game

在博弈论中，Normal-form game是对game的一种描述。Normal-form game通过矩阵来表示game。
下图就是一个payoff矩阵：
payoff
Normal-form game是一种静态模型，这个模型假设每个player仅选择一次action或策略。
Normal-form game适用于描述不需要考虑博弈进程的完全信息静态(Complete information static)博弈。

展开全文 >>

opencv3 --python3 mac下配置

2017-07-22

安装Anaconda

把Anaconda安装的python版本设置为默认启动版本
修改.bash_profile文件：

# Setting PATH for Python 2.7  
# The orginal version is saved in .bash_profile.pysave  
PATH="/Library/Frameworks/Python.framework/Versions/2.7/bin:${PATH}"  
export PATH  
# Setting PATH for Python 3.4  
# The orginal version is saved in .bash_profile.pysave  
PATH="/Library/Frameworks/Python.framework/Versions/3.4/bin:${PATH}"  
export PATH  
# added by howard  
export PATH="/usr/local/anaconda3/bin:$PATH"

PATH替换成自己的路径

根据该脚本，先会去找 /usr/local/anaconda3/bin ，发现有，就为当前路径下的解释器环境，并执行。
—— 所以，想设置python的版本，直接把你想添加的路径export上去，并放在后面。

展开全文 >>

HEXO+Github搭建博客

2016-10-17

hexo是一款基于Node.js的静态博客框架。

之前是想着写博客，一方面是给自己做笔记，可以提升自己的写作、总结能力，这里记录一下linux下面Hexo搭建的步骤。

展开全文 >>

缺失模块。
1、请确保node版本大于6.2
2、在博客根目录（注意不是yilia根目录）执行以下命令：
npm i hexo-generator-json-content --save

3、在根目录_config.yml里添加配置：

  jsonContent:
    meta: false
    pages: false
    posts:
      title: true
      date: true
      path: true
      text: false
      raw: false
      content: false
      slug: false
      updated: false
      comments: false
      link: false
      permalink: false
      excerpt: false
      categories: false
      tags: true

Howard<br>东南大学计算机系研究生<br><br>乌兰巴托的夜<br>那么静那么静<br>唱歌的人不许掉眼泪<br>