以全新视角分析预训练-微调范式(1)
以全新视角分析预训练-微调范式(1)
前言
在我系列文章的第三篇:如何选取最合适的预训练模型(3)中,曾提到learning dynamics的概念,但这仅仅是粗浅的分析,并给出了可用于工业角度的不确定性度量。事实上,learning dynamics不仅可以做这一件事,其本质在于分析变化前后的动态,例如可以分析样本与样本之间的影响,样本输入对模型输出的影响等等。因此,本系列主要参考一篇博士大论文:Learning Dynamics of Deep Learning,尝试总结并给出这个角度如何应用到预训练-微调范式中,并给出可尝试用到工业领域的一些应用思考。
先导:关于learning dynamics的推导
尽管上一篇提到了,但仍然没有系统的给出。这里将详细推导关于learning dynamics的相关概念。
数据之间的影响
深度学习发展到今日,其核心依旧在于数据,而高质量数据是帮助模型快速收敛并学习合适参数的关键。但我们总是忽略一大问题:
什么是高质量的数据?
在LLM中,高质量数据通常被定义为高度结构化的。在模型后训练(SFT,RLHF,DPO等)中起到至关重要的作用。但在时间序列中,高质量数据的定义很困难,因为它覆盖范围太广,异构性太强。然而预训练-微调范式中,预训练正要学习到通用特征。那么,数据在其中扮演着什么样作用?以故障电机信号为例,当故障信号输入后,它势必会更新模型参数,它将如何影响模型发展?和上一个故障信号是什么关系?这些都是悬而未决的问题。而这些问题被解答后,将会进一步推动这个角度的可解释性。
在这里,我们将再次从learning dynamics的角度出发。
This post is licensed under CC BY 4.0 by the author.