如何选取最合适的预训练模型(3)
前言 上两篇文章我们分别讲解了LogME和DISCO的原理以及实验小结论。诚然,这两种方法都有效的展示了基础模型和数据之间的关系,LogME直接的利用贝叶斯边际似然的方法,给不同的基础模型打分;DISCO细致的观察不同奇异值和分类分数之间的关系,更细粒度的展示了基础模型微调前后的变化,后续的实验也验证了它们的准确性。 然而,我们依旧对微调这件事有些茫然。具体来说,我们只通过微调时奇异值的流...
前言 上两篇文章我们分别讲解了LogME和DISCO的原理以及实验小结论。诚然,这两种方法都有效的展示了基础模型和数据之间的关系,LogME直接的利用贝叶斯边际似然的方法,给不同的基础模型打分;DISCO细致的观察不同奇异值和分类分数之间的关系,更细粒度的展示了基础模型微调前后的变化,后续的实验也验证了它们的准确性。 然而,我们依旧对微调这件事有些茫然。具体来说,我们只通过微调时奇异值的流...
paper:DeepSeek LLM code:Github 前言 目前deepseek大火,很多文章也对其团队发出的技术报告进行了详细的解读和分析,但更需要的是从头开始一步一步展示deepseek发展过程,而这里就是他们的第一篇技术报告。 另外,现有的主流文章仅介绍了他们第一篇技术报告的大体框架。但正如标题所言,他们创新的亮点在于对缩放定律(Scaling Law)的详细研究,因此我的...
paper:PFML code:Github ABSTRACT 论文大致介绍了下自监督学习主要是利用数据的内在结构进行学习,也就是通过模型自己给数据定义标签。但是自监督学习由于模型的复杂性会导致两个问题: 算法复杂,需要优化很多超参数; 表征坍缩(representation collapse),即模型输出一个持续的输入不变的特征表示。 关于这两个问题后面还会有详细的例子...