AlphaGo是怎么学会下围棋的,行业动态,成都金大立科技有限公司

AlphaGo是怎么学会下围棋的

由Google的子公司DeepMind创建的人工智能系统AlphaGo，刚刚在一场围棋比赛中以四比一的成绩战胜了人类冠军李世石(Lee Se-dol)。此事有何重大意义？毕竟在1997年IBM深蓝(Deep Blue)击败加里·卡斯帕罗夫(Garry Kasparov)后，电脑已经在国际象棋上超越了人类。为什么要对AlphaGo的胜利大惊小怪呢？

和国际象棋一样，围棋也是一种高度复杂的策略性游戏，不可能靠巧合和运气取胜。两名棋手轮番将黑色或白色的棋子落在纵横19道线的网格棋盘上；一旦棋子的四面被另一色棋子包围，就要从棋盘上提走，最终在棋盘上留下棋子多的那一方获胜。

然而和国际象棋不一样的是，没有人能解释顶尖水平的围棋是怎么下的。我们发现，顶级棋手本人也无法解释他们为什么下得那么好。人类的许多能力中存在这样的不自知，从在车流中驾驶汽车，到辨识一张面孔。对于这一怪象，哲学家、科学家迈克尔·波兰尼(Michael Polanyi)有精彩的概括，他说，“我们知道的，比我们可言说的多。”这种现象后来就被称为“波兰尼悖论”。

波兰尼悖论并没有阻止我们用电脑完成一些复杂的工作，比如处理工资单、优化航班安排、转送电话信号和计算税单。然而，任何一个写过传统电脑程序的人都会告诉你，要想将这些事务自动化，必须极度缜密地向电脑解释要它做什么。

这样的电脑编程方式是有很大局限的；在很多领域无法应用，比如我们知道但不可言说的围棋，或者对照片中寻常物品的识别、人类语言间的转译和疾病的诊断等——多年来，基于规则的编程方法在这些事务上几无建树。

“深蓝”几乎全凭强大的计算力实现了超人表现：它吸收了数百万份棋局实例，在可能选项中搜索最佳的走法。问题是围棋的可能走法比宇宙间的原子数还多，即使最快的电脑也只能模拟微不足道的一小部分。更糟的是，我们甚至说不清该从哪一步入手进行探索。

这次有什么不同？AlphaGo的胜利清晰地呈现了一种新方法的威力，这种方法并不是将聪明的策略编入电脑中，而是建造了一个能学习制胜策略的系统，系统在几乎完全自主的情况下，通过观看胜负实例来学习。

由于这些系统并不依赖人类对这项工作的已有知识，即使我们知道的比可言说的更多，也不会对它构成限制。

AlphaGo的确会在某几步棋中使用模拟和传统搜索算法来辅助决策，但它真正的突破在于它有能力克服“波兰尼悖论”。它能通过实例和经验自行得出制胜策略。这些实例来自2500年围棋历史积累下来的高人对局。为了理解这些棋局的制胜策略，系统采用了一种叫做“深度学习”的方法，经证明这种方法可以对规律进行有效梳理，在大量信息中认清哪些是重要的东西。

在我们的大脑中，学习是神经元间形成和巩固关系的过程。深度学习系统采用的方法与此类似，以至于这种系统一度被称为“神经网络”。系统在软件中设置了数十亿个节点和连结，使用对弈实例组成的“训练集合”来强化刺激（一盘正在进行的围棋）和反应（下一步棋）的连结，然后让系统接收一次新的刺激，看看它的反应是什么。通过另一种叫做“强化学习”的技术，AlphaGo还和自己下了几百万盘棋，从而记住哪些走法和策略是有效的。

深度学习和强化学习都是早已提出的技术，但我们直到近年才意识到它们的威力，以及它们能走多远。事实上我们还是不清楚，但对这些技术的应用正取得飞速的进步，而且看不到终点在哪里。它们的应用很广泛，包括语音识别、信用卡欺诈侦测、放射学和病理学。机器现在已经可以识别面孔、驾驶汽车，它们都曾被波兰尼本人归为知道但不可言说的领域。

我们还有很长的路要走，但潜能是十分可观的。就像240年前詹姆斯·瓦特(James Watt)首次推出蒸汽机，技术推动的变革在未来几年里将会波及我们的整个经济，但不能保证每个人都能从中得到同等的好处。快速的技术进步带来的社会挑战，依然是需要我们去理解和应对的，这方面不能指望机器。

新闻动态