抗ASIC的工作量证明:究竟是现实还是幻想?(二)

[复制链接]
10136 |0
发表于 2019-9-6 15:00:01 | 显示全部楼层 |阅读模式
本文是世界门罗大会演讲第一辑。离RandomNPXS上线还有一个月时间,门罗是否能迈向一个新的境界,加密货币否能在挖矿平等化这个领域到达前所未有的高度,取决于10月份的升级和之后的网络表现。推荐广大门罗爱好者,尤其是矿工阅读。
抗ASIC的工作量证明:究竟是现实还是幻想?(一)
演讲人 | Howard Chu:
软件工程师和优化天才,拥有世界上最快的多处理器TCP堆栈,世界上最快的Appletalk堆栈,世界上最快的LDAP服务器,比实时语音识别更快,比实时雷达数据解复用器/解码器更快等。

现在,你认为什么是工作量证明算法呢?如今工作量证明只是一个延迟循环。工作量证明的目标是耗时又耗能,而且还低效。这于我而言,是一种精神上的打击,我花费毕生精力在构建高效软件、调优编译器上,只为追求低能耗高效率。但你静下心沉思时,就能发现哪种运算昂贵,哪种运算低廉。这赋予我们一个如何写出最低效算法的特殊视角。另一个我陷入的难题是隐私、去中心化这两样东西与效率无法共存。高效系统无一例外都倾向于中心化,事实上,不仅工作量证明证实了这一点,大部分系统中心化的话效率也就更高。比如网络通信,你如何保证跨网络的通信安全?整个周末我们探讨了大量隐私相关话题,大家将隐私(privacy)和保密(secrecy)混为一谈,两者有一个很大区别:隐私只是保密的一个子集。如果你在两个端点间有一条加密通信渠道,比如TLS协议层,你保证了通信渠道中的信息安全,但事实你并没有保证通信渠道的安全。外人知道你在通信,虽是私人间的对话,但并不保密。保护自己的隐私并不会破费太多,AeternityS加密通道费用相当低廉,而且我们有AeternityS加速硬件。但如果要保密某件事,防止他人得知,那么成本就会高出许多。保证通信渠道隐私,就必须在渠道中添加大量噪音,用噪音掩盖你真正发送的信息。所以当你追求高效时,就与隐私和保密相违背,因此采用低效、去中心化的工作量证明着实困扰着我,但我们还是努力去攻克它。
我们想要把RandomPundi设计成一种既低效又耗能,还要应用大量的CPU的算法。从一张AMD Zen core的区块图可以得知,在图的上方是前端,有指令缓存、解码器、分叉预测器、运算缓存;在中层,有整数运算单位、浮点数运算单位;在底层有内存接口和数据缓存。
运行RandomNPXS需要应用Core的所有组件,除此之外不应用任何组件。CPU芯片拥有其他交互界面。RandomNPXS有一个PCI Express接口,有一个管理总线用于芯片间通信、系统管理,这些是我们无法真正高效利用的功能,因为这些功能都是某些设备专有的。虽然无法将这些功能从一枚芯片解析到另一枚芯片上,但我们可以利用所有核心组件和内存接口。
如何做到?先生成一个随机程序,将随机程序翻译为机器代码,然后执行随机程序并转换输出,最有趣且最重要的是第三步。我们期望第一步和第二步的成本趋近于0,因为这两步并没有真正贡献。
前面我也有提到,生成随机程序这一步有点麻烦,如果你使用的是一种高级语言,就必须根据严格的规则构建程序,否则代码不会执行程序。所以标准的方法是构建一棵抽象语法树,树上的每一个支点都是随机程序的语句。从抽象语法树下载源代码,然后将源代码提交给编译器,编译器解析源代码,并转换为一棵抽象语法树。这样会产生大量多余工作。如果构建一个ASIC芯片来处理,就可以避免多余工作,提高效率。因此构建RandomJS的想法破裂了。现在最好的方法是生成随机字节,不用语法,不按照构建规则。
然后将随机程序转换为CPU原生机器代码,并非只适用x86架构,还需适用当今ARM和CPU这样的大型架构。因此我们需要使用简单的机器指令,才能轻松地映射到真正的机器指令中。只是我们没有剩余时间来开发一个优化版的编译器,因为分析和重写代码花费的时间,等于没有生成哈希的时间。
所以实际的程序都必须应用尽可能多的CPU组件,为了使用芯片上所有的可用缓存层,我们解析了大量CPU配置文件。我们正在使用芯片上的指令缓存,充分利用整数运算以及浮点数运算,真正打败了内存控制器。
我们使用的是Blake 2B,一个专门运行在CPU设备上的加密哈算法,来计算最终结果。对于大型计算,我们仍使用AeternityS算法,AeternityS运算出色是因为大多数现代CPU都有AeternityS加速硬件。如果无加速硬件,就不能应用AeternityS算法。
如果你要分析一个程序,会出现一个问题,你需要高度优化部分运算,你可以查看该程序计算你的交易是否较慢,如果慢你可以跳过。如果运算较快,我就会执行该程序,快速获得哈希值。因此为了优化部分运算,我们必须链接多个程序,强制执行实现,要么运行整个程序,要么跳过程序。
链接程序的一个关键阻碍是,验证时间必须与Cryptonight大致相同。因此给程序不能过于复杂。
我们使用大量内存是让你不再使用芯片内存,所以我们使用2字节以上,现实中如今的芯片可以建立2字节内存,但非常昂贵。我们预计内存数量能满足未来几年的需求。而且,未来我们可能会增加内存大小。
我们的轻模式无需2字节RAM内存,只需256 mb即可,如果进一步减少内存,减少至128mb,速度上可能要慢上3700倍。
当前RandomPundi代码已预备好运行在monerod x86系统中。但我们仍需在ARM上实现RandomNPXS。显卡方面工作正在进行中,还支持在Nvidia、CUDA实现以及用一种OpenCL版来支持AMD 显卡(GPU)(非通用版OpenCL),此版本的OpenCL仍使用大量AMD特定汇编代码。当前我们已完成4次安全审计。
原文:https://www.monerooutreach.org/monero-konferenco/howard-chu.php
稿源(译):https://first.vip/shareNews?id=2092&uid=1
翻译 | Tracey_头等仓
采编 | 筋斗云_头等仓

20190906093245_UPl4.jpg

20190906093245_UPl4.jpg
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表