对人类来说,我们只需一眼便能快速识别我们所处的环境以及环绕在我们身边的物体。当我们看到一张图片或是环看四周的时候,无需刻意观察,多数时候也能立即描述出场景特征并标记出每一个对象。
幽幽微醺淡淡咖啡香
对人类来说,我们只需一眼便能快速识别我们所处的环境以及环绕在我们身边的物体。当我们看到一张图片或是环看四周的时候,无需刻意观察,多数时候也能立即描述出场景特征并标记出每一个对象。
论文认为:组合泛化(combinatorial generalization)是AI中最首要的任务,要达到这个目的,结构化表征(structured representations)和计算能力(computations)很关键。如生物学中,将先天基因和后天孕育结合在一起,因此我们必须摒弃在”手动设计结构(hand-engineering)“和”端到端(end-to-end)”二选一的错误做法,而是把两者结合起来:深度学习+基于结构的方法:图网络。
传统上,Agent 从他们的经验中学习下一状态预测模型,并将预测误差用作内在 reward。与现有方法不同,RND引入的内在 reward 基于预测下一状态下固定且随机初始化的神经网络的输出。在不熟悉的状态下,很难预测输出,因此奖励很高。 它可以应用于任何强化学习算法,实现简单而且高效。
由于环境状态由多个Agent的行为共同决定,本身具有不稳定性(non-stationarity),这就导致 Q-learning 算法很难训练,policy gradient 算法的方差会随着智能体的增加变得更大。
本文提出了一种AC方法的变体 MADDPG ,每个 agent 学习的过程中都可以知晓其他 agent 的策略,进行中心化训练和非中心化执行,取得了显著效果。
作者通过添加辅助任务增强了A3C(Asynchronous Actor Critic)算法。这些辅助任务共享网络参数,但是它们的价值函数是通过 n-step 的 off-policy 的 Q-Learning 来学习的。辅助任务只用于学习更好的表示,而不直接影响主任务的任务control。这种改进被称为UNREAL(Unsupervised Reinforcement and Auxiliary Learning),在性能和训练效率方面优于A3C。
一般地,在只给定原始输入观察和奖赏值的情况下,通过基于模型(model-based)或者模型无关 (model-free)的DRL算法可以学习到鲁棒的值函数。
后续状态表示法 (Successor Representation, SR)
为学习值函数提供了第 3 种选择。
上节课中通过动态规划能够解决已知 environment 的 MDP 问题,也就是已知 $S,A,P,R,\gamma$,其中根据是否已知 policy 将问题又划分成了 prediction 和 control 问题,本质上来说这种 known MDP 问题已知 environment 即转移矩阵与 reward 函数,但是很多问题中 environment 是未知的,不清楚做出了某个 action 之后会变到哪一个 state 也不知道这个 action 好还是不好,也就是说不清楚 environment 体现的 model 是什么,在这种情况下需要解决的 prediction 和 control 问题就是Model-free prediction和Model-free control。显然这种新的问题只能从与 environment 的交互得到的 experience 中获取信息。
这节课要解决的问题是Model-free prediction,即未知environment的Policy evaluation,在给定的 policy 下,每个state的 value function 是多少。
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true