第107章 三十二个证人(2/2)
框架,迁移成功。
江临靠回椅背,看著屏幕上那九行乾净的比较器。
一瞬间,有种成了的轻飘飘然。
可这点轻飘只浮起了几秒,就被他自己一把按了下去。
重新调出陈启明那张流血的火焰图。
dian7_fast、rank5_le、3_dow……
陈启明早就说过,人工优化的红利,已经被那群长期泡在底层代码里的人压得很薄了。
意思是他团队现有的代码,比较器数量大概率早就是九,或者贴著九。
而他用高维数学和搜索算法搜出来的最少九个比较器,对陈启明而言,根本不是什么新东西。
江临盯著自己那九行结果,眉头慢慢拧紧。
他犯了一个新手才会犯的错。
下意识地去优化了那个最乾净最好定义也最容易写出適应度函数的组合目標——比较器的数量。
可陈启明要的,从来不是数学意义上的数量最少。
而是在他那几台具体的伺服器上,跑得最快。
数量最少和跑得最快在真实的物理世界里,根本不是一回事。
江临想起陈启明在报告厅留下的最后一句话。
他的搜索空间里,充满了正確的低效垃圾。
此刻他更深一层地明白了。
九个比较器,是按数量排的。
但在一颗真实的cpu里,决定一段代码快慢的,从来就不只是指令的数量。
而是这九个比较器之间的数据依赖链:哪些必须排队等前一个算完,哪些可以並排著同时算。
是它们落在乱序执行引擎的哪几个埠上,会不会挤在一起抢资源。
是每条、ax、条件传送指令的延迟和吞吐。
是寄存器够不够用,会不会被逼著往內存里倒腾。
同样九个比较器,排成一条又细又长的依赖链,和排成五层能並行的浅塔,在流水线上的表现,可能差出一大截。
比较器数量少,和比较器深度浅,是两个不同的目標。
陈启明真正想要的目標,那个在型號a的伺服器上榨乾最后一滴性能,把延迟压到最低的最优解,藏在极深极脏的硬体底层里。
和微架构死死绑在一起。
换一颗不同代际的cpu,哪怕只是从tel的skyke换到zen3架构,缓存延迟和指令埠的微小变化,都会导致那个最优解瞬间跌落神坛,变成次优。
江临盯著那张三台机器的perf表,一下子意识到,要找到那个真正適应物理世界的最优解,单靠数学证明是不够的。
他必须在他的ps框架里,接入一个代价模型。
在海量正確的候选网络里,不仅看数量,还要看深度,看並行度。
甚至到最后,他需要写一个自动化脚本,把筛选出来的,看起来很有希望的几百个变种网络,一个一个编译成机器码,扔进真实的物理伺服器里去实测,打分,筛选。
每一次实测都伴隨著作业系统调度的噪声、缓存预热的波动。
他得每个候选跑上一百万次,取中位数,取99分位延迟,做枯燥的统计学对抗。
根本不是一个晚上,甚至不是现实里的一年半载能够跑完的事。
意识到纯算法在底层硬体面前的局限性后,江临的脑子反而冷静了下来。
顺手点开rank5,这个逻辑能不能也用现有的框架碾压过去。
题面:给五个数,不要求全部排好,只问输入窗口中心位置的那个数,在这五个数里到底排第几。
几乎是出於惯性,本能地就想把刚写好的零一原理验证脚本套上去。
不过还好下一刻,他就及时把自己摁住了。
零一原理管的是排好没有,是全局的单调性。
可rank5要的根本不是把所有数都乖乖排好,而是要给每个数,或者特定的某个数,贴上一个精確的名次標籤。
如此,它的正確性判据不再是问最终的输出序列有没有单调递增,而是变成了问:那个原本在输入中心位置的数,它头上顶著的名次,到底是不是正確的名次
如果强行把输入全换成0和1会发生什么
比如原始输入是【10,50,30,20,40】,中间那个数是30,它排第三名。
如果粗暴地二值化为0-1序列,可能会变成【0,1,1,0,1】。
在这个二值序列里,有三个1,两个0。
原本该区分开的绝对名次情形,因为数值维度的坍缩,直接撞成了一团烂泥,根本分不开谁是真正的第三。
零一原理在这里,不直接成立。
或者说,它失效了。
rank5≠排序网络。
验证rank5,必须回到相对大小关係(如置换群)的层面,而非单纯的0-1输入空间。
它的底层结构更接近一张由偏序关係构成的,动態更新的两两比较矩阵。
这又是一个新坑。
江临的目光扫过最后一个问题:3_of_8。
从八个数里,挑出前三大。
这个问题同样暗藏杀机。
对比较网络形式的-k选择,类似的零一检验可以使用。
八个位置,就是28=256个0-1证人。
但前提是,你必须先和出题人把正確的语义定义好。
什么叫挑出前三
口径a:只要最大的三个数,落进了输出数组的前三个坑位就行,这三个数內部是乱序也无所谓
口径b:还是说,不仅最大的三个数要进前三,而且这三个数之间,也必须严格按照从大到小排好
如果口径没有定死,那么ps框架搜索出来的就是空中楼阁。
標准宽泛一分,搜索空间就呈指数级缩小。
標准严格一分,依赖链就不可避免地加长。
三个题,三套完全不同的脾气,三种不同的验证体系。
江临没有急著去写代码解题。
因为方向比速度重要一万倍。
他打开一个文本编辑器,像一个在雷区插旗的工兵一样,把每一套题目的逻辑边界、验证难点、硬体耦合点,一字一句地记进文档里。
天快亮的时候,江临整理出了一份能交给陈启明的东西。
第一样,是基於零一原理的验证夹具。
这是一个杀器。
它能对陈启明团队里任何人写出的任何一段sort5候选代码,给出一份绝对穷举的,与底层cpu架构毫无关係的,在数学上不可辩驳的正確性证明。
以后,谁要是交上来一段自以为绝妙的位运算代码,不用爭吵,跑一下这个夹具。
三十两个0-1证人当场表態。
不过关的直接打回。
这就是地基。
第二样,是一份边界说明文档。
他把陈启明面临的混沌问题,一分为二。
第一层,是纯组合层面的理论目標。
比较器的总数能不能更少
依赖链的层数能不能更浅
对sort5这种规模的小问题,江临承诺,他可以用他的ps框架,把这一层的所有理论最优解完整摸清,连根拔起。
但他也直言不讳地指出,面对更大的n(比如16、32),哪怕是ps,依然会在算力面前发生组合爆炸。
必须引入启发式剪枝。
第二层,是与具体物理硬体绑定的微架构最优。
也就是在陈启明指定的某一台伺服器上,把延迟压到最低。
这一层,需要陈启明的实测夹具,需要海量的候选代码去真机里跑统计。
工作量极大,需要时间。
这绝非现实世界里加几个通宵的班就能够解决的问题。
他会把整套ps-kernel的框架,搬进废土里去打磨。
在那里,他有几十年,去把搜索框架,剪枝策略,代价模型一寸一寸地养肥,调通,跑稳。
当然,前哨站里那台工作站,是他从现实背进去的特定机器。
它跑出来的最快,只是那台机器上的最快。
陈启明的目標,是另外几台型號完全不同的伺服器。
微架构一换,最优解就不一样。
所以,废土那几十年,他真正能带回来的,不会是某一段在废土硬体上飞快的代码。
而是一套被反覆打磨调试,验证过的超级搜索框架,一套成熟的代价建模方法论,外加一个经过数学验证和现实实测双重筛选的候选网络结构库。
如此计划妥当,江临將打包好的文档和脚本重命名为j_ps_phase1_deliverables.zip。
窗外天光已经泛白,江城那场憋了一夜的雨,到底没落下来。