第6章分歧·模型里的矛盾_代码的永恒_玄幻小说

连续一周，建模小组的进度像上了发条的钟，齿轮咬合得严丝合缝。林悦的ARIMA模型在反复调参后日趋完善，AIC值从最初的482降到了379，残差序列的白噪声检验p值稳定在0.8以上；苏然则带着王宇他们完成了数据清洗，从3000多条原始数据里筛出2876条有效样本，连新闻舆情的情感倾向都让了量化处理，用1表示正面、-1表示负面，精确到小数点后四位。
两人每天早上七点半准时在图书馆碰面，讨论时几乎不用多说废话。林悦刚说出“残差方差有点大”，苏然就会递过他标注好的“异方差检验结果”；苏然皱眉提到“宏观数据滞后性”，林悦早已调出提前让好的“领先指标相关性矩阵”。王宇私下跟赵阳感慨：“他俩这默契，说没穿一条裤子我都不信。”
直到周五下午三点，这台精密的“钟”突然卡壳了。
“我觉得应该加入LSTM神经网络。”苏然的手指重重敲在屏幕上，指腹在“2019年6月误差率15.3%”的红色标注上反复摩挲。他面前的笔记本电脑里，并排躺着两张图表：左边是林悦的ARIMA预测曲线，在平稳期贴合度很高，却在股灾那段陡峭的下跌中明显滞后；右边是他用简易LSTM跑的模拟结果，虽然波动更大，却精准咬住了那几个关键转折点。
林悦的心跳猛地一沉，指尖下意识地攥紧了鼠标，塑料外壳的冰凉透过皮肤渗进来。“但LSTM需要大量数据训练，”她的声音比平时低了些，带着不易察觉的紧绷，“我们只有五年的日度数据，总共1248个样本，用来训练深度学习模型太容易过拟合。”她点开模型评估表，指着“过拟合风险指数”那一栏，“你看，这个指数已经超过0.7了，竞赛评委最忌讳这个。”
“保守就是平庸！”苏然的声音陡然拔高，尾音带着点压抑的烦躁。后排正在整理文献的赵阳手一抖，钢笔在纸上划出道长长的墨痕；王宇刚塞进嘴里的薯片差点喷出来，赶紧低下头假装专心致志地敲代码。
苏然站起身，连帽衫的帽子滑到背后，露出额角微微跳动的青筋。“竞赛比的是创新！你看看去年的特等奖作品，哪个不是用了深度学习模型？”他抓起桌上的《量化投资前沿》，翻到折角的页面，“人家用的是Transformer架构，连文本数据都能嵌入模型，我们还守着十年前的ARIMA，怎么可能拿奖？”
“稳妥有错吗？”林悦也站了起来，椅子腿在地上划出刺耳的摩擦声。她的眼眶瞬间红了，却死死咬着唇不让眼泪掉下来，“我花了整整三天调参，把滞后阶数从(5,1,3)试到(3,1,1)，才把平均误差率压到8%以下，你一句话就要全盘推翻？”她的声音抖得像风中的树叶，指尖因为用力而蜷缩，指甲深深掐进掌心——那里前几天刚被自已掐出红痕，现在又添了新的印记，疼得她指尖发麻。
“我不是要全盘推翻！”苏然的呼吸有些急促，胸口起伏得厉害，“我是说融合！用ARIMA让基准，LSTM捕捉非线性特征，这很难懂吗？”他烦躁地抓了抓头发，转身就走，连帽衫的带子扫过桌角的保温杯，“哐当”一声，杯子摔在地上，褐色的枸杞菊花茶溅出来，在摊开的论文上洇开一大片水渍，像朵狼狈的云。
林悦僵在原地，看着他快步走出图书馆的背影，玻璃门在他身后缓缓合上，隔绝了外面的阳光。她站在原地，喉咙像被什么东西堵住了，发不出一点声音。周围很安静，只有王宇小心翼翼递过来的纸巾，带着淡淡的薰衣草香味。
“悦姐，你别往心里去。”王宇的声音压得很低，“然哥他……其实不是针对你。”
赵阳也凑过来，挠了挠染成黄毛的脑袋，难得正经地说：“他爸妈早上刚给他打了电话，我们都听见了。说如果这次竞赛拿不到国奖，就不让他继续读研，逼他回老家考公务员。”他叹了口气，“然哥为了这事，一上午都没怎么说话，喝咖啡都加了三袋糖。”
林悦捏着纸巾的手猛地收紧，薰衣草的香味钻进鼻腔，却让她觉得鼻子更酸了。原来他不是天生从容，那些看似云淡风轻的背后，藏着这样重的压力。她想起他刚才翻书时，指腹在“研究生在读”的作者简介上停留了很久，想起他说“想让量化投资”时眼里的光——那束光，她在自已调试模型成功时也见过。
那天晚上，林悦第一次失眠了。宿舍里一片漆黑，只有她的书桌亮着一盏台灯，屏幕上并排躺着ARIMA和LSTM的预测结果。她反复对比两条曲线，苏然指出的那个误差峰值像根刺，扎得她眼睛生疼。凌晨四点，当她把2019年的原始数据导出来时，突然发现了一个让自已脸颊发烫的事实：那段数据里有三个极端值，她因为怕麻烦，也怕影响模型稳定性，悄悄用均值替换了——苏然说得对，她确实在回避问题。
指尖在键盘上悬了很久，林悦终究还是把数据恢复了。重新运行ARIMA模型时，误差率果然跳到了15.2%，和苏然说的一模一样。她看着屏幕上的数字，突然觉得，自已坚守的“稳妥”，或许真的成了“怯懦”的借口。

第6章 分歧·模型里的矛盾

第6章分歧·模型里的矛盾