以全新视角分析预训练-微调范式（1）

Posted Oct 29, 2025

3 min read

以全新视角分析预训练-微调范式（1）

前言

在我系列文章的第三篇：如何选取最合适的预训练模型（3）中，曾提到learning dynamics的概念，但这仅仅是粗浅的分析，并给出了可用于工业角度的不确定性度量。事实上，learning dynamics不仅可以做这一件事，其本质在于分析变化前后的动态，例如可以分析样本与样本之间的影响，样本输入对模型输出的影响等等。因此，本系列主要参考一篇博士大论文：Learning Dynamics of Deep Learning，尝试总结并给出这个角度如何应用到预训练-微调范式中，并给出可尝试用到工业领域的一些应用思考。

先导：关于learning dynamics的推导

尽管上一篇提到了，但仍然没有系统的给出。这里将详细推导关于learning dynamics的相关概念。

数据之间的影响

深度学习发展到今日，其核心依旧在于数据，而高质量数据是帮助模型快速收敛并学习合适参数的关键。但我们总是忽略一大问题：

什么是高质量的数据？

在LLM中，高质量数据通常被定义为高度结构化的。在模型后训练（SFT，RLHF，DPO等）中起到至关重要的作用。但在时间序列中，高质量数据的定义很困难，因为它覆盖范围太广，异构性太强。然而预训练-微调范式中，预训练正要学习到通用特征。那么，数据在其中扮演着什么样作用？以故障电机信号为例，当故障信号输入后，它势必会更新模型参数，它将如何影响模型发展？和上一个故障信号是什么关系？这些都是悬而未决的问题。而这些问题被解答后，将会进一步推动这个角度的可解释性。

在这里，我们将再次从learning dynamics的角度出发。

thoughts

This post is licensed under CC BY 4.0 by the author.

前言

先导：关于learning dynamics的推导

数据之间的影响

Trending Tags