短暂的吵闹过后,实验室又恢复了平静。
周昀看着屏幕上的实验记录,第一次感觉有些棘手。
能够支撑模型运行的核心代码他上周就写完了,然后设置了几组实验,跑了六天,今天刚好出结果。
只是这结果,有些不尽如人意。
在选择股票相同的情况下,甚至还没有之前那个只能接受数值和文本数据的阉割版模型效果好。
这就是AI领域的问题之一,模型完全是黑盒的,你永远不知道你的数据在模型里是怎么变化传输的,可能某一行代码出了问题,就会导致各种奇奇怪怪的问题。
不过还好,周昀在写代码的时候加入了大量的调试代码,因为每跑一次实验需要的时间太长了,
甚至这次他并没有用到所有的数据,只用了其中的一部分,跑一组实验就得一周,这还是64张H100的显卡集群的情况下,
如果用上全部的数据的话,虽然时间上不会是简单的倍乘关系,但至少也得两周。
但这也就是第一次训练时候需要大量数据才要这么久,等第一次训练好了,后续的再有新的数据,就不需要从头训练,只需要利用新的数据微调就行。
现在他就在看输出日志,观察到底是在哪一个环节出了问题,为了衡量模型的效果好坏,
内容未完,下一页继续阅读