谷歌论文详解AlphaZero：为国际象棋、将棋和围棋带来新曙光

发布时间：2024-10-14浏览：45

大家好，今天小编来为大家解答谷歌论文详解AlphaZero：为国际象棋、将棋和围棋带来新曙光这个问题，很多人还不知道，现在让我们一起来看看吧！

各种传统的国际象棋引擎，包括世界计算机国际象棋冠军Stockfish和IBM的Deep Blue，都依赖于顶级人类国际象棋棋手提供的大量规则和启发式算法。该信息用于解释游戏中的每种可能性。对于将棋来说也是如此，因此该程序仅适用于一种国际象棋游戏，使用彼此相似的搜索引擎和算法。

AlphaZero的做法则完全不同，用一组深度神经网络和大量通用算法代替手写规则。更重要的是，除了基本规则之外，这些算法没有任何固有的东西。

图：国际象棋中，AlphaZero用时4小时成功击败Stockfish；仅用了2个小时就击败了将棋世界冠军Elmo；而在围棋方面，AlphaZero用了30个小时击败了前围棋世界冠军李世石。阿尔法狗。（注：每个训练步骤代表4096个磁盘位置）

在学习国际象棋游戏的过程中，这个未经训练的神经网络利用强化学习的实验和试错过程与自己进行了数百万轮比赛。最初，它基本上是随机的，但随着时间的推移，系统会从胜利、失败和平局中学习，调整神经网络参数，并确保在未来的选择中做出更有利的判断。

“它的一些动作，例如将国王移动到棋盘中央，违背了将棋理论，并且从人类的角度来看，似乎将AlphaZero 置于危险的境地。但令人难以置信的是，它仍然控制着棋盘。其独特的游戏风格向我们展示了游戏有新的可能性（它选择的一些动作，例如将国王移动到棋盘的中心，显然与原始的将棋理论相冲突；从人类的角度来看，这可能会导致但令人难以置信的是，AlphaZero仍然牢牢掌握着主动权，其独特的棋局策略让我们意识到将棋中隐藏着新的可能性）'—— Yoshiharu Habu，唯一获胜的大师。七大将棋锦标赛

训练完成后，该网络将引导蒙特卡罗树搜索（MCTS）算法选择当前棋盘上最有利的着法。在国际象棋的每一步棋中，AlphaZero 执行的位置搜索量只是传统国际象棋引擎的一小部分。以国际象棋为例，AlphaZero每秒只需要搜索6万个位置，而Stockfish则需要搜索大约6000万个位置。

训练完成后，这套系统开始与最强大的传统国际象棋（Stockfish）和埃尔莫（Elmo）引擎进行较量，甚至与其前身版本AlphaGo进行了“房间大战”。

每个程序都在专门设计的硬件上运行。 Stockfish 和Elmo 需要44 个CPU 核心（与TCEC 世界系列赛相同的硬件配置），而AlphaZero 和AlphaGo Zero 使用4 个第一代TPU 和44 个CPU 核心。第一代TPU的推理速度基本相当于NVIDIA Titan V GPU等商业硬件，但两者的架构有很大不同，很难直接比较。

所有游戏时长为3 小时，每一步加时15 秒。

最终，AlphaZero以较大优势赢得了所有比赛：

国际象棋方面，AlphaZero以155局之差击败了206年第九届TCEC世界锦标赛冠军Stockfish——AlphaZero，胜算只有千分之六。为了证明AlphaZero表现的稳定性，我们在正常人类开局后还为双方准备了多种残局。在每场残局中，AlphaZero 仍然可以击败Stockfish。另外，2016年我们还让AlphaZero在实战中面对真正的开局，对手换成了最近升级的Stockfish版本和另一个开局储备很强的变种。尽管压力巨大，AlphaZero仍然取得了彻底的胜利。

在将棋比赛中，AlphaZero以91.2%的胜率击败了2017年CSA世界锦标赛冠军Elmo。

在围棋比赛中，AlphaZero 以61% 的胜率击败了AlphaGo Zero。

除了胜负之外，更重要的是AlphaZero在比赛中所展现出的风格。仍然以国际象棋为例，AlphaZero 在自主学习和训练过程中，自己发现了很多常见的传统技巧，比如开子、留王、兵子等。但由于完全不受传统思维的束缚，AlphaZero也发展出了自己的直觉和策略。它提出了一系列极其新颖的想法，极大地扩展了几个世纪以来人类对国际象棋策略的理解。

“一个多世纪以来，国际象棋一直被用作人类和机器认知的罗塞塔石碑。 AlphaZero 通过做一些非凡的事情，重新建立了古老的棋盘游戏和尖端科学之间的非凡联系。 AlphaZero被视为区分人类和机器人认知能力的罗塞塔石碑，其出色的表现让我们开始从新的角度审视古老的国际象棋游戏与前沿科学之间的密切联系）”——加里·卡斯帕罗夫，前世界国际象棋大师冠军。

AlphaZero的棋步给棋手们留下了深刻的印象。马修·萨德勒说：“它的举动具有很强的目的性和侵略性，而且总是将矛头指向对方的王。”在此基础上，AlphaZero在对抗方面也具有非常动态的能力，包括尽可能地改进我们的棋子。灵活性和机动性，同时最大程度地限制对方棋子的灵活性和机动性。另外值得一提的是，现代国际象棋观念认为所有棋子都有价值，因此某个棋手棋盘上的棋子总价值越高，说明他在比赛中具有优势。 AlphaZero也不太注重各种棋子的具体价值，而是更喜欢通过在开局阶段牺牲一些棋子来获得中长期竞争优势。

马修评论道，“在各种棋型和棋位中都表现出如此强烈的价值取向，这无疑令人印象深刻。”他还观察到，AlphaZero在开局阶段会非常刻意地选择“与人类一样高”。类似的动作。”

马修还提到，“传统引擎非常稳定，很少出现明显错误。但当没有具体的解决方案可供参考时，他们往往会有点不知所措。相比之下，AlphaZero 在这种情况下可以表现良好。诸如“感觉”、“洞察力”和“直觉”等倾向。 ”

“其影响远远超出了我心爱的棋盘……这些自学成才的专家机器不仅表现得非常好，而且我们实际上可以从它们产生的新知识中学习。 …这些自学专业机器不仅擅长国际象棋，而且还让我们能够从它们产生的新知识中受到启发）'——加里·卡斯帕罗夫，前国际象棋世界冠军。

这种其他传统国际象棋引擎所不具备的独特能力，给很多国际象棋爱好者带来了新的思路和灵感。马格努斯·卡尔森和法比亚诺·卡鲁阿纳在最近的世界国际象棋锦标赛中采取了类似的策略。 Natasha Regan 在《Game Changer》书中提到，“分析AlphaZero、各种顶级国际象棋引擎、甚至顶级大师的棋步确实很有趣。 AlphaZero 可能会成为整个国际象棋世界的重要学习经验。工具。”

不仅是AlphaZero，AphaGo在2016年与传奇高手李世石交手时也展现了类似的惊人走法。在这一轮的比赛中，AlphaGo展现出了很多非常有创意的表现，尤其是在第二局比赛中，它仅用了37步就迅速赢得了——，这为AlphaGo的发展奠定了基础。彻底颠覆了人类数百年来对围棋的认识。包括李世石本人在内的许多棋手也开始进行深入研究。在评论第37步棋时，李世石表示，“我一直认为AlphaGo是一个基于概率的计算工具，毕竟它只是一台机器。但看到这步棋后，我的看法改变了。必须承认， AlphaGo确实很有创意。”

与围棋类似，我们同样对AlphaZero 在国际象棋中展现的创造力感到兴奋。自计算机时代开始以来，国际象棋一直是人工智能面临的主要挑战之一。巴贝奇、图灵、香农和冯·诺依曼等先驱都在试图寻找国际象棋问题的解决方案。 AlphaZero 的伟大之处在于它的用途不仅限于国际象棋、将棋或围棋。为了解决各种现实问题，我们要求智能系统具有很强的灵活性，能够适应不同的新情况。虽然我们在这方面取得了一些进展，但问题仍然没有从根本上得到解决。现有的智能系统虽然能够以极高的标准学习特定技能，但仍然无法处理即使稍作修改的任务。

AlphaZero 可以掌握三种不同的复杂国际象棋游戏，甚至有望掌握任何提供完美信息的游戏。这代表着实现通用智能系统的重要一步。从这个角度来看，单一算法在不同规则的约束下学习和发现新知识是完全可能的。此外，仍处于早期开发阶段的AlphaZero已经能够带来创造性的见解；加上我们在AlphaFold 等其他项目中取得的令人兴奋的成果，我们现在对构建通用学习系统充满信心。总之，我们或许能够发现新的解决方案并最终克服一些最重要和最复杂的科学问题。

用户评论

采姑娘的小蘑菇

这篇文章写的真的太棒了！我一直对 AlphaZero 非常好奇，看完这篇介绍终于明白了它的厉害之处。人工智能能够达到这样的水平简直令人震惊，未来还有无限可能!

有18位网友表示赞同！

凝残月

国际象棋、将棋和围棋都是我最喜欢的游戏，看到 AlphaZero 在这些游戏中取得如此优异的成绩，真是太高兴了！这证明人工智能在战略思考方面有着惊人的能力，让我们对未来的竞争充满期待。

有5位网友表示赞同！

从此我爱的人都像你

谷歌实验室的实力不容小觑啊！这篇论文讲解得非常详细，让我对 AlphaZero 运作机制有了更深入的了解。不过，我也有些担心 AI 的发展速度，会不会有一天超越人类？

有19位网友表示赞同！

赋流云

这篇文章写的真专业，看得明白 AlphaZero 的学习过程和策略。对于喜欢人工智能的人来说绝对是一篇不能错过的好文章！期待未来看到 AlphaZero 在其他领域的应用。

有15位网友表示赞同！

一生荒唐

这篇论文让我对 AlphaZero 的研究方向感到非常好奇。如果能够将其应用于医疗、科研等领域，我想它将给人类社会带来巨大的改变和发展。

有10位网友表示赞同！

人心叵测i

AlphaZero 确实强大，但在国际象棋比赛中，真正看重的不是输赢，而是策略的深远性和变化多端性。我觉得 AlphaZero 还需要学习更多人类棋手的智慧和经验才能在真正的高水平比赛中脱颖而出。

有17位网友表示赞同！

你与清晨阳光

谷歌实验室真是厉害！AlphaZero 的出现为传统棋类游戏带来了新的曙光，我也期待它能够推动人工智能技术的进步!

有16位网友表示赞同！

涐们的幸福像流星丶

虽然文章内容很详尽，但我觉得对于非专业人士来说还是有些难以理解。希望未来可以通过更直观的表达方式让更多人了解 AlphaZero 的魅力。

有17位网友表示赞同！

酒笙倾凉

看到AlphaZero在棋类的强大表现，让人感叹人类智力的局限性。但我相信，真正的智慧在于学习和协作，而不是单纯的竞争和超越。

有18位网友表示赞同！

风中摇曳着长发

这篇文章让我对人工智能的发展产生了新的思考。如果有一天 AI 能够像 AlphaZero 一样快速学习和解决复杂问题的话，那么未来的很多行业都将面临巨大的变革!

有14位网友表示赞同！

羁绊你

我觉得AlphaZero更像是把人类智慧复制了一遍，而不是真正具有智慧的智能体。它只是在海量数据基础上进行运算和分析，缺乏真正的思考和创造力。

有15位网友表示赞同！

揉乱头发

这篇文章写的太精彩了！看完后我简直对人工智能研究充满了兴趣，也想尝试学习一些相关知识，看看自己能不能跟上 AlphaZero 的步伐!

有9位网友表示赞同！

一纸愁肠。

虽然AlphaZero在棋类游戏中的表现优秀，但我还是觉得这种“纯粹的竞争”并不能代表人工智能的发展方向。希望未来的AI能够更侧重于服务人类、解决实际问题！

有8位网友表示赞同！

笑傲苍穹

这篇论文分析的很细致，让我对 AlphaZero 的算法非常感兴趣。如果能将它应用于游戏开发领域，我想会创造出全新的游戏玩法和体验!

有18位网友表示赞同！

蹂躏少女

AlphaZero的成功证明了机器学习的潜力，同时也表明我们需要更加谨慎地对待人工智能的发展。未来我们应该更加注重伦理和道德规范，确保 AI 始终服务于人类利益。

有18位网友表示赞同！

无望的后半生

对于非棋类爱好者来说，这篇论文可能有点枯燥，内容过于专业。希望作者能够提供一些更通俗易懂的解读，让更多人了解 AlphaZero 的意义!

有7位网友表示赞同！

拉扯

AlphaZero的确很强大，但它只是局限于模拟人类的思维方式。我想未来的人工智能应该拥有超越人类的思考和创造能力，而不是简单的“模仿者”。

有8位网友表示赞同！

封锁感觉

这篇文章让我更加相信 AI 正在改变世界的步伐，未来会有更多颠覆性的技术出现！期待看到 AlphaZero 在更多领域的应用，为人类社会带来更多福祉!

有12位网友表示赞同！

热点资讯