眼爆科技

人工智能(61)–AlphaGo浅析(1)

时间:2018-06-20 13:00  编辑:眼爆科技

AlphaGo(阿尔法狗)战胜了柯洁,人工智能赢了,赢家仍然是人类!

之前介绍过深度强化学习DRL,其中一个最最经典的应用就是谷歌DeepMind团队研发的围棋程序AlphaGo(阿尔法狗)。AlphaGo的胜利将深度强化学习推上新的热点和高度,成为AI人工智能历史上一个新的里程碑

有必要跟大家一起探讨一下AlphaGo(阿尔法狗),了解一下AlphaGo背后神奇的AI力量

围棋的程序设计:

围棋是一个完美的、有趣的数学问题

围棋棋盘是19x19路,所以一共是361个交叉点,每个交叉点有三种状态,可以用1表示黑子,-1表示白字,0表示无子,考虑到每个位置还可能有落子的时间、这个位置的等其他信息,可以用一个361 * n维向量来表示一个棋盘的状态。则把一个棋盘状态向量记为s。

当状态s下,暂时不考虑无法落子的地方,可供下一步落子的空间也是361个。把下一步的落子的行动也用361维的向量来表示记为a。

于是,设计一个围棋人工智能的程序,就转变为:任意给定一个s状态,寻找最好的应对策略a,让程序按照这个策略走,最后获得棋盘上最大的地盘

谷歌DeepMind的围棋程序AlphaGo(阿尔法狗)就是基于这样思想设计的。

AlphaGo概述:

AlphaGo(阿尔法狗)创新性地将深度强化学习DRL蒙特卡罗树搜索MCTS相结合, 通过价值网络(value network)评估局面以减小搜索深度, 利用策略网络(policy network)降低搜索宽度, 使搜索效率得到大幅提升, 胜率估算也更加精确。

  • 共3页:
  • 上一页
  • 1
  • 2
  • 3
  • 下一页




  • 上一篇:人工智能(58)–多层感知器 下一篇:人工智能(59)–BP算法