过去几年,随着人工智能研究人员不断提升产品性能,使其更加“智能”,许多人都秉持着这样的信条:模型训练得越多,最终效果就越好。在这项新研究中,研究团队发现了一些证据表明,语言模型训练可能存在收益递减点。
研究人员在训练两个不同版本的 LLM OLMo-1B 模型并测试其回报时得出了这一结论。在一个场景下,他们使用了 2.3 万亿个 token 进行训练,而在另一种场景下,他们使用了 3 万亿个 token。然后,他们通过使用 ARC 和 AlpacaEval 等多个基准测试来比较这两个场景。结果发现,使用更多 token 训练的模型在测试中的表现实际上更差,最多差了 3%。
他们对自己的研究结果感到惊讶,并进行了更多测试,仍然发现了类似的结果。这表明,在某个临界点上,更多的训练反而会降低模型的“智能”。研究团队称之为“灾难性的过度训练”,并认为这是他们所谓的“渐进性敏感性”造成的。
他们进一步指出,随着令牌数量的增加,模型变得越脆弱,这意味着微调(可以被视为增加噪音)开始逆转在压力点之前看到的改进收益。
为了验证他们的理论,他们在一些模型中添加了高斯噪声,结果发现这样做会导致与之前观察到的相同类型的性能下降。他们将这个不可逆转的点称为“拐点”。他们认为,在此之后,任何进一步的训练都会降低模型的稳定性,使其更难以以适合特定应用的方式进行调整。
上海油压工作室研究人员最后建议,展望未来,LLM 模型的开发人员可能必须估计多少训练才足够,或者找到其他类型的方法,以便进行具有更远拐点的额外训练。