浅谈autoencoder（1）——从autoencoder到VAE

前言最近的研究刚好和自编码器有所联系，作为一个很大的神经网络框架，它的优势在于可以仅采集健康数据并训练出基于健康数据的模型，这样故障程度越大，离健康流形就越远，理论上可以有一个连续的状态监测框架。但他有一个致命的问题，就是它受工况的影响特别大，这个痛点问题在工业界非常常见。最初的的研究仅针对同一工况进行分析，并将其集成到FPGA中。但随着工业界对不同工况的处理需求增加，解耦工况是成为一...

Jun 2, 2026 research

以全新视角分析预训练-微调范式（1）

前言在我系列文章的第三篇：如何选取最合适的预训练模型（3）中，曾提到learning dynamics的概念，但这仅仅是粗浅的分析，并给出了可用于工业角度的不确定性度量。事实上，learning dynamics不仅可以做这一件事，其本质在于分析变化前后的动态，例如可以分析样本与样本之间的影响，样本输入对模型输出的影响等等。因此，本系列主要参考一篇博士大论文：Learning Dynami...

Oct 29, 2025 thoughts

An Overview of Artificial Intelligence Applications for Power Electronics

前言这篇整理算是回归老本行，AI4PE这个领域十分交叉，既要熟悉计算机领域的内容，还要对电力电子有着深刻的理解，或许和我本科学通信蛮有较大的关联度。本篇的整理源自2020年发表的一篇综述，由于AI领域的迅猛的发展，综述里许多AI的技术在目前看来已经较为古老。但从电力电子领域的角度来看，我们的最终目的是利用AI处理这里的问题。因此，AI的方法可以迭代更新，但电力电子领域内的问题依旧变化不大...

Sep 12, 2025 thoughts

如何选取最合适的预训练模型（3）

前言上两篇文章我们分别讲解了LogME和DISCO的原理以及实验小结论。诚然，这两种方法都有效的展示了基础模型和数据之间的关系，LogME直接的利用贝叶斯边际似然的方法，给不同的基础模型打分；DISCO细致的观察不同奇异值和分类分数之间的关系，更细粒度的展示了基础模型微调前后的变化，后续的实验也验证了它们的准确性。然而，我们依旧对微调这件事有些茫然。具体来说，我们只通过微调时奇异值的流...

Aug 17, 2025 thoughts

DeepSeek LLM - Scaling Open-Source Language Models with Longtermism

paper：DeepSeek LLM code：Github 前言目前deepseek大火，很多文章也对其团队发出的技术报告进行了详细的解读和分析，但更需要的是从头开始一步一步展示deepseek发展过程，而这里就是他们的第一篇技术报告。另外，现有的主流文章仅介绍了他们第一篇技术报告的大体框架。但正如标题所言，他们创新的亮点在于对缩放定律（Scaling Law）的详细研究，因此我的...

Apr 13, 2025 thoughts

PFML:self-supervised learning of time-series data without representation collapse

paper：PFML code：Github ABSTRACT 论文大致介绍了下自监督学习主要是利用数据的内在结构进行学习，也就是通过模型自己给数据定义标签。但是自监督学习由于模型的复杂性会导致两个问题：算法复杂，需要优化很多超参数；表征坍缩（representation collapse），即模型输出一个持续的输入不变的特征表示。关于这两个问题后面还会有详细的例子...

Jan 14, 2025 thoughts