眼爆科技

人工智能之强化学习(RL)

时间:2018-05-05 09:00  编辑:眼爆科技

当前人工智能之机器学习算法主要有7大类:1)监督学习(Supervised Learning),2)无监督学习(Unsupervised Learning),3)半监督学习(Semi-supervised Learning),4)深度学习(Deep Learning),5)强化学习(Reinforcement Learning),6)迁移学习(Transfer Learning),7)其他(Others)。

今天我们重点探讨一下强化学习(RL)。

强化学习(RL),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。

那么什么是强化学习?

强化学习是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历或能力进行学习。通过这种方式,RLS在行动评价的环境中获得知识,改动方案以适应环境

通俗的讲,就是当一个小孩学习有迷茫或困惑时,如果老师发现小孩方法或思路正确,就给他(她)正反馈(奖励或鼓励);否则就给他(她)负反馈(教训或惩罚),激励小孩的潜能,强化他(她)自我学习能力,依靠自身的力量来主动学习和不断探索,最终让他(她)找到正确的方法或思路,以适应外部多变的环境。

强化学习有别于传统的机器学习,不能立即得到标记,而只能得到一个反馈(奖或罚),可以说强化学习是一种标记延迟的监督学习。强化学习是从动物学习、参数扰动自适应控制等理论发展而来的。

强化学习原理:

如果Agent的某个行为策略导致环境

  • 共3页:
  • 上一页
  • 1
  • 2
  • 3
  • 下一页




  • 上一篇:2017年中国人工智能融资情况 下一篇:人工智能之随机森林(RF)