原标题:柯洁再次成为围棋 AI 的 benchmark,这次让二子也落败
雷锋网 AI 科技评论按:作为围棋界检验 AI 水平的 human benchmark,柯洁再次落败。
2018 年 1 月 17 日晚八点半,在腾讯野狐围棋平台的1059号对弈房,迅速聚集了 7000多名围观棋友。如此火爆,只因这里正发生着一场围棋史上极为罕见的对弈——作为国际围棋界职业顶尖棋手,而且是最顶尖的那个,柯洁首次在公开对战中成为被让子的一方,而且是让二子(黑帖 6 目半)。
与柯洁对弈的是腾讯 AI Lab 研发的围棋 AI 「绝艺」(绝艺指导 A)。但是很快,尽管被让二子,柯洁仍在第 77 手或许是对自己的表现太过不满而直接认输。这场意义重大的对决,就这样猝然终结。
随后,超级银冠棋手剑过无声(连笑九段)登场挑战「绝艺」,但苦战 247 手后仍然无奈认输。
“绝艺”对弈柯洁九段(即“潜伏”)和连笑九段(即“剑过无声”)。对弈中,柯洁追杀白棋右上未果,仅弈77手,便爽快认输;一个小时后连笑九段跟进,鏖战247手后中盘告负
围棋界的人士可能对「绝艺」的大名已经耳熟能详了;而非围棋界的人士,可能还不是很了解此「国产狗」。
相比于日本的 DeepZenGo 和英国的 AlphaGo,国内在 Computer Go(电脑围棋)的投入起步较晚。腾讯公司从 2016 年 2 月才开始着手研制围棋 AI。但很快,「绝艺」人工智能的第一个版本便于 2016 年 3 月 4 日完成了。
随后,「绝艺 AI」在腾讯围棋的野狐平台上开设了多个账号,包括虎虎有生气、野狐扫地僧、天下无狗 20、绝艺、骊龙、刑天等。其中「绝艺」账号使用时间最久,对弈盘数最多,名气也最大。目前在野狐平台上有「绝艺指导」A、B、C、D 等各个小号,分别用于对弈不同段位的棋手。
「绝艺」艺名来源:
重送绝句(杜牧)
绝艺如君天下少,闲人似我世间无。
别后竹窗风雪夜,一灯明暗覆吴图。
虽然起步晚,但是绝艺 AI 发展却很快。仅仅经过 4 个月的时间,在 2016 年 6 月下旬,绝艺已经突破了业余 6 段;同年 8 月便开始在腾讯旗下的野狐围棋网络对弈平台测试,8 月 23 日首次战胜职业棋手,11 月 2 日第一次战胜世界冠军江维杰,11 月 19 日首次交手柯洁取胜。
绝艺第一次大范围引起关注,是 2017 年 3 月初在野狐平台上晋升为「十段」高手。但实际上在此之前,它已经战胜了包括韩国围棋国手古力、连笑、朴廷桓等高手;甚至在 2 月 14 日至 2 月 24 日期间,和柯洁交手十次,无一败绩。
随后,绝艺在 2017 年 3 月 18-19 日的第 10 届 UEC 杯世界电脑围棋大会上战胜了当时电脑围棋界的「第二」AI——DeepZenGo,夺得冠军。由于这次夺冠,绝艺获得了参加第 5 届电圣战的资格,在 2017 年 3 月 26 日对弈来自日本棋院的新锐棋手一力辽,并执黑 157 手中盘胜。
事情总是无挫不勇。2017 年 8 月在鄂尔多斯举办的中国围棋大会首届世界智能围棋公开赛上,「绝艺」半决赛对弈 DeepZenGo 不幸落败,未能进入决赛。此役之后,「绝艺」卧薪尝胆,不断迭代。
2017 年 11 月 15 日野狐平台上出现了一个昵称为「符合预期」的账号,数日内鏖战 99 局,除了第 40 局被柯洁击败外,余者全胜。同时「符合预期」还对战了绝艺指导 A(UEC 杯夺冠版),在让二子的情况下,以 60 连胜完成版本升级。
12 月 10 日在日本秋叶原举办的 2017 围棋龙星战(AI RYUSEI)决赛中,升级版「绝艺」相继以平稳的表现战胜 MayoiGo、Raynz 和 AQ,并在决赛中再会老对手 DeepZenGo 并轻松获胜。知名棋手剑过无声(连笑)甚至评论说「绝艺可让 Zen 两子」。
进入 2018 年后,从本月 9 日开始,装备了最强公开版本的「绝艺」(野狐平台账号为「绝艺指导 A」),开始了让二子(黑帖 6 目半)对决职业棋手的行程。截止到与柯洁对弈前,事实上「绝艺」已经与职业棋手对弈了 31 局 27 胜 4 负。与柯洁和连笑的两场让二子对弈更是让这轮对决的意义推上了巅峰。
雷锋网了解到,就围棋 AI 对弈中让二子的问题腾讯 AI Lab 做了以下回应:
包括 AlphaGo 在内的围棋 AI 都存在赢棋退让的问题,原因是 AI 以赢棋为目标,胜率过高时下哪里都赢,不一定会选择赢最多的下法。
而让子棋就是另外一种胜率过低的极端情况,以绝艺海南挑战赛版本为例,这是一个分先版本的 AI,如果要求其以让 2 子开始对局,则初始胜率为 7%(让 3 子则初始胜率 1%,让 4 子则初始胜率 0.1%)。并且实力越强的版本,下让子棋时的初始胜率就越低(因为 AI 下棋时会假设对手跟自己一样)。
初始胜率过低将导致 AI 不能发挥出真正的实力,这也是现在绝艺让 2 子还不能全胜的原因。我们最近在尝试优化算法,来解决胜率过低带来的负面影响,争取以后在让子棋里有更好的表现。
据腾讯 AI Lab 的公开新闻介绍,此次与柯洁等职业棋手对弈的「绝艺」挑战赛版,参考了 2017 年 10 月公开的 AlphaGo Zero 论文,并在实践中做出了改进;使用了 40 block dual-resnet 模型,以老版本的「绝艺」为基础进行强化学习,自对弈了数百万棋局,在有限的资源和时间内,通过把强化学习和监督学习相结合来加速训练,快速提升了棋力。
为了了解「绝艺」如此迅猛发展背后的技术细节,雷锋网 AI 科技评论特地采访了「绝艺」团队的成员。
AI 科技评论:这次「绝艺」在与柯洁、连笑等职业选手的对弈中,均取得不错的成绩。请问柯洁等职业棋手是否参与了「绝艺」的开发?在「绝艺」的成长中他们起到了什么样作用?
答:柯洁没有参与绝艺的开发,但是柯洁等几十位职业棋手可以使用绝艺内测网站,「绝艺」也在腾讯野狐围棋上与棋手对弈,所以很多棋手共同见证了整个「绝艺」的成长过程。
罗洗河九段是绝艺的技术顾问,给绝艺团队围棋技术方面的指导。
AI 科技评论:通过您们的新闻了解到,这个版本的绝艺技术上主要参考了 2017 年 10 月份 deepmind 发表的关于 AlphaGo Zero 的文章。您们对这篇文章的内容怎么评价?在具体实践中,您们做了哪些方面的改进?
答:AlphaGo Zero 是非常让人震撼的研究成果,除了让围棋水平达到一个新的高度,它还不依赖人类知识,让 zero 的算法具备更高的推广价值。
绝艺学习了 Zero 的 dual-resnet 模型,和绝艺老版本相比有更高效的强化学习算法。因为绝艺还在不断参加比赛进行锻炼,比如 2017 年 12 月腾讯棋牌的「绝艺挑战赛」等,所以我们没有选择从「零」开始,而是以绝艺老版本为基础进行强化学习。这样可以大幅减少训练时间,在有限的资源和时间内完成。目前我们已经在开发从零开始的版本了。
AI 科技评论:相比 11 月底的「符合预期」以及 12 月中旬的「绝艺」,挑战赛版的「绝艺」有哪些方面的改进? 开发这个版本的「绝艺」花费了多少时间?
答:绝艺近期公开亮相的三个版本之间的主要差异:
2017 年 11 月符合预期:20 block dual-resnet,自对弈了数十万棋局
2017 年 12 月日本 AI 龙星战:20 block dual-resnet,自对弈了数百万棋局
2017 年 12 月三亚绝艺挑战赛:40 block dual-resnet,自对弈了数百万棋局
从 10 月下旬开始,用了 1 个多月时间完成了上述三个版本的开发。
AI 科技评论:「绝艺」在多个比赛中战胜了国际上一些历史悠久的电脑围棋,请问与 DeepZenGo 等电脑围棋相比,「绝艺」有哪些方面的优势和不足?(例如技术、理念、团队等)
答: 我们很难简单把「绝艺」和其他围棋 AI 进行比较,如果回顾「绝艺」从研发到成长过程中,始终与柯洁、古力和腾讯围棋上的职业和业余棋手密切交流与切磋。
AI 科技评论:「绝艺」团队已经在「绝艺」的研发上做了很久的工作,请问您们对「绝艺」的定位是什么?现在绝艺已经达到能够让二子与人类的职业选手进行比赛了。再开发下去的意义在哪?
答:我们认为在研究、应用和社会价值上,「绝艺」都有其特定意义。
围棋 AI 研究由来已久,相关的算法也不断推陈出新。「绝艺」涵盖了人工智能最热门的研究领域——深度学习和强化学习,我们在不断研发中受益良多。
从应用价值上,腾讯野狐围棋是国内最大、最活跃的的围棋平台之一,「绝艺」目前已经有还开发了指导棋、棋赛讲解等功能,也深受广大棋迷喜爱和关注。
而在社会意义上,围棋是国粹运动,「绝艺」是腾讯推进前沿科技赋能国粹文化的代表,我们看到 AI 的每一次进步,不仅挖掘围棋的潜力与边界,也在展现着人类的智慧与进步。这也是 AI Lab 对于绝艺的期待——希望它能与人类棋手积极互动,从而激发更多关注并传承围棋这一中国传统文化。这是我们的一种科技责任感。
AI 科技评论:在去年三月份 UEC 世界杯大赛中的绝艺总体框架遵循的是 AlphaGo 在 2017 年 1 月份发表的文章;而这次则主要依据 2017 年 10 月份 AlphaGo Zero 的文章。现在 Deepmind 已经不再继续开发 AlphaGo 了。所以您们打算以后如何进一步开发绝艺的性能呢?
答:绝艺会一直坚持开发下去,除了不断提高棋力,我们也会研究解决一些有趣的问题,比如现在的 AI 以获胜为目标,胜率过高时可能会退让,不一定会选择最优的下法。
腾讯将继续加大对 AI 的研究与投入,打造世界级围棋 AI 能力与推广,更在 AI 上推进深度学习等前沿 AI 科技的研究与应用。