注册 登录
爱吱声 返回首页

喜欢的个人空间 http://www.aswetalk.net/bbs/?17 [收藏] [复制] [分享] [RSS]

日志

【转贴】最强版AlphaGo完虐前代 柯洁:人类太多余了

热度 14已有 678 次阅读2017-10-20 01:24 |个人分类:海阔天空


最强版AlphaGo完虐前代 柯洁:人类太多余了(图)

文章来源: 36氪 于 2017-10-19 01:52:30 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
打印本新闻 (被阅读 11293 次) 

原标题:"最强版AlphaGo"100比0完虐前代  柯洁:人类太多余了

今日凌晨(伦敦时间10月18日18:00),DeepMind公布了AlphaGo的最新升级版本AlphaGo Zero,并于最新一期的《自然》杂志上,对其使用的相应技术做出详解。

DeepMind称,“AlphaGo Zero与AlphaGo最大的不同是做到了真正的自我学习,经过3天的训练,就以100:0的战绩完胜前代AlphaGo。”

除了夜猫子们第一时间看到了这则消息外,曾与AlphaGo有过交战的柯洁也在第一时间做出回应,柯洁表示,“对于AlphaGo的自我进步来讲...人类太多余了”。


今年5月,在乌镇举办的围棋峰会上,世界排名第一的柯洁不敌AlphaGo,最终以0:3告负。随后,AlphaGo宣布退役,不再与人类下棋,DeepMind则表示,将在今年晚些时候公布AlphaGo的技术细节。

那么,究竟这次的AlphaGo Zero相较此前的版本有哪些提升呢?(划重点啦)

1.AlphaGo Zero通过与自己不断挑战来进行提升,不依赖人类数据。此前版本则是通过分析海量棋谱数据进行学习。AlphaGo打败李世石用了3000万盘比赛作为训练数据,而AlphaGo Zero仅用了490万盘比赛数据。经过3天的训练,AlphaGo Zero以100:0的战绩完胜AlphaGo。并且只用了1台机器和4个TPU,而李世石版AlphaGo则用了48个TPU

2.AlphaGo Zero只使用围棋棋盘上的黑子和白子作为输入,而上一版本的AlphaGo的输入包含了少量人工设计的特征。

3.AlphaGo Zero 不使用“走子演算”,它依赖于高质量的神经网络来评估落子位置。其它围棋程序使用的快速、随机游戏,用来预测哪一方将从当前的棋局中获胜。

4.在训练过程中,AlphaGo Zero每下一步需要思考的时间是0.4秒。相比之前的版本,仅使用了单一的神经网络。

5.AlphaGo Zero采用的是人工神经网络。这种网络可以计算出下一步走棋的可能性,估算出下棋选手赢的概率。随后根据计算,AlphaGo Zero会选择最大概率赢的一步去下。

DeepMind联合创始人兼CEO哈萨比斯称:“AlphaGo Zero是我们项目中最强大的版本,它展示了我们在更少的计算能力,而且完全不使用人类数据的情况下可以取得如此大的进展。”

2014年谷歌以4亿英镑的价格收购英国人工智能公司DeepMind。2016年,谷歌旗下的DeepMind团队发布AlphaGo,并在以4:1的成绩击败李世石后,名声大噪。

相较于研究成果的闪耀,DeepMind在研究费用上的投入也是惊人的。据英国政府此前发布的资料显示,DeepMind仅去年一年就亏损了1.62亿美元。对此,DeepMind则表示,“我们会继续向自己的科学使命投资,与世界上最聪明的人合作,解决社会上最复杂的问题。”

================================================

借机吐槽:现在用手机玩扑克还在鄙视其软件的算法。应该在不远的将来就有令人“望而生畏”的棋牌类游戏可玩了吧?——也许会被虐得没法玩了?
还是现在已经有从不出臭招的扑克游戏了?



膜拜

鸡蛋
6

鲜花

路过
2

雷人

开心
2

感动
1

难过

刚表态过的朋友 (11 人)

发表评论 评论 (4 个评论)

回复 牛铃 2017-10-20 02:43
德州扑克据说机器比人打得好了,桥牌机器人也几乎不错了
回复 沉宝 2017-10-20 03:38
AlphaGo Zero 不使用“走子演算”,……
有点小惊奇 ,但想了想,也不太意外
回复 司马梦求 2017-10-20 03:50
这还是专注某方向的AI,可能通用AI也不远了,想想蛮恐怖的
回复 黑洞的颜色 2017-10-20 05:00
根据自然杂志的文章,我觉得AlphaGo Zero 不使用“走子演算” 也许是误译。

引用:“Finally, it uses a simpler tree search that relies up this simple neutral network to evaluate position and sample moves.”

只是不再使用常见的Monte Carlo 法减少搜索空间。这个非常像人类棋手了,即只关注最可能的几个位置。

只用 neutral network 的结果展示在Figure 6: Raw network. 积分大概3000(AlphaGo zero 在5185),低于最强人类棋手(3500左右),但是已经很高了。对比: 对阵李世石(~3550)的AlphaGo Lee 积分3739; 对柯洁(~3670)的AlphaGo Master 积分4858。

几点想法:

1. 我以为 AlphaGo raw neutral network 可以对比人类的“棋感”。 3000分说明“不需考虑”即可打倒大多数专业棋手。很强大。

2. 这是几百万对弈局下出来的,可以理解,因为人类历史上恐怕都不一定下过AlphaGo Zero 这几天下出来的局数。

3. AlphaGo Zero根据raw neutral network (对比人类的“棋感”)选择的搜索,在其0.4秒内至少有几千步。这个是有”棋理“的搜索 (相对于随机的Monte Carlo 法)即算路算的深,当然强。

4.实际上,根据这个文章,我反而更加钦佩人类的学习能力,而不是"人类太多余了". 想象一下柯洁才下过多少盘,他的棋感已经接近最佳了!要是人有能力算几千步。。。

5. 从AlphaGo Lee 积分3739来看,柯洁当时认为可以一战是完全正确的!因为那个时候AlphaGo的棋感是不够的!靠得是算得快(还有些瞎算)。

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 注册

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2024-3-29 02:05 , Processed in 0.030273 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

返回顶部