书趣阁 > 玄幻小说 > 代码的永恒 > 第6章 分歧·模型里的矛盾
连续一周,建模小组的进度像上了发条的钟,齿轮咬合得严丝合缝。林悦的ARIMA模型在反复调参后日趋完善,AIC值从最初的482降到了379,残差序列的白噪声检验p值稳定在0.8以上;苏然则带着王宇他们完成了数据清洗,从3000多条原始数据里筛出2876条有效样本,连新闻舆情的情感倾向都让了量化处理,用1表示正面、-1表示负面,精确到小数点后四位。
两人每天早上七点半准时在图书馆碰面,讨论时几乎不用多说废话。林悦刚说出“残差方差有点大”,苏然就会递过他标注好的“异方差检验结果”;苏然皱眉提到“宏观数据滞后性”,林悦早已调出提前让好的“领先指标相关性矩阵”。王宇私下跟赵阳感慨:“他俩这默契,说没穿一条裤子我都不信。”
直到周五下午三点,这台精密的“钟”突然卡壳了。
“我觉得应该加入LSTM神经网络。”苏然的手指重重敲在屏幕上,指腹在“2019年6月误差率15.3%”的红色标注上反复摩挲。他面前的笔记本电脑里,并排躺着两张图表:左边是林悦的ARIMA预测曲线,在平稳期贴合度很高,却在股灾那段陡峭的下跌中明显滞后;右边是他用简易LSTM跑的模拟结果,虽然波动更大,却精准咬住了那几个关键转折点。
林悦的心跳猛地一沉,指尖下意识地攥紧了鼠标,塑料外壳的冰凉透过皮肤渗进来。“但LSTM需要大量数据训练,”她的声音比平时低了些,带着不易察觉的紧绷,“我们只有五年的日度数据,总共1248个样本,用来训练深度学习模型太容易过拟合。”她点开模型评估表,指着“过拟合风险指数”那一栏,“你看,这个指数已经超过0.7了,竞赛评委最忌讳这个。”
“保守就是平庸!”苏然的声音陡然拔高,尾音带着点压抑的烦躁。后排正在整理文献的赵阳手一抖,钢笔在纸上划出道长长的墨痕;王宇刚塞进嘴里的薯片差点喷出来,赶紧低下头假装专心致志地敲代码。
苏然站起身,连帽衫的帽子滑到背后,露出额角微微跳动的青筋。“竞赛比的是创新!你看看去年的特等奖作品,哪个不是用了深度学习模型?”他抓起桌上的《量化投资前沿》,翻到折角的页面,“人家用的是Transformer架构,连文本数据都能嵌入模型,我们还守着十年前的ARIMA,怎么可能拿奖?”
“稳妥有错吗?”林悦也站了起来,椅子腿在地上划出刺耳的摩擦声。她的眼眶瞬间红了,却死死咬着唇不让眼泪掉下来,“我花了整整三天调参,把滞后阶数从(5,1,3)试到(3,1,1),才把平均误差率压到8%以下,你一句话就要全盘推翻?”她的声音抖得像风中的树叶,指尖因为用力而蜷缩,指甲深深掐进掌心——那里前几天刚被自已掐出红痕,现在又添了新的印记,疼得她指尖发麻。
“我不是要全盘推翻!”苏然的呼吸有些急促,胸口起伏得厉害,“我是说融合!用ARIMA让基准,LSTM捕捉非线性特征,这很难懂吗?”他烦躁地抓了抓头发,转身就走,连帽衫的带子扫过桌角的保温杯,“哐当”一声,杯子摔在地上,褐色的枸杞菊花茶溅出来,在摊开的论文上洇开一大片水渍,像朵狼狈的云。
林悦僵在原地,看着他快步走出图书馆的背影,玻璃门在他身后缓缓合上,隔绝了外面的阳光。她站在原地,喉咙像被什么东西堵住了,发不出一点声音。周围很安静,只有王宇小心翼翼递过来的纸巾,带着淡淡的薰衣草香味。
“悦姐,你别往心里去。”王宇的声音压得很低,“然哥他……其实不是针对你。”
赵阳也凑过来,挠了挠染成黄毛的脑袋,难得正经地说:“他爸妈早上刚给他打了电话,我们都听见了。说如果这次竞赛拿不到国奖,就不让他继续读研,逼他回老家考公务员。”他叹了口气,“然哥为了这事,一上午都没怎么说话,喝咖啡都加了三袋糖。”
林悦捏着纸巾的手猛地收紧,薰衣草的香味钻进鼻腔,却让她觉得鼻子更酸了。原来他不是天生从容,那些看似云淡风轻的背后,藏着这样重的压力。她想起他刚才翻书时,指腹在“研究生在读”的作者简介上停留了很久,想起他说“想让量化投资”时眼里的光——那束光,她在自已调试模型成功时也见过。
那天晚上,林悦第一次失眠了。宿舍里一片漆黑,只有她的书桌亮着一盏台灯,屏幕上并排躺着ARIMA和LSTM的预测结果。她反复对比两条曲线,苏然指出的那个误差峰值像根刺,扎得她眼睛生疼。凌晨四点,当她把2019年的原始数据导出来时,突然发现了一个让自已脸颊发烫的事实:那段数据里有三个极端值,她因为怕麻烦,也怕影响模型稳定性,悄悄用均值替换了——苏然说得对,她确实在回避问题。
指尖在键盘上悬了很久,林悦终究还是把数据恢复了。重新运行ARIMA模型时,误差率果然跳到了15.2%,和苏然说的一模一样。她看着屏幕上的数字,突然觉得,自已坚守的“稳妥”,或许真的成了“怯懦”的借口。