Chirpy

浅谈autoencoder(1)——从autoencoder到VAE

前言 最近的研究刚好和自编码器有所联系,作为一个很大的神经网络框架,它的优势在于可以仅采集健康数据并训练出基于健康数据的模型,这样故障程度越大,离健康流形就越远,理论上可以有一个连续的状态监测框架。但他有一个致命的问题,就是它受工况的影响特别大,这个痛点问题在工业界非常常见。 最初的的研究仅针对同一工况进行分析,并将其集成到FPGA中。但随着工业界对不同工况的处理需求增加,解耦工况是成为一...

以全新视角分析预训练-微调范式(1)

前言 在我系列文章的第三篇:如何选取最合适的预训练模型(3)中,曾提到learning dynamics的概念,但这仅仅是粗浅的分析,并给出了可用于工业角度的不确定性度量。事实上,learning dynamics不仅可以做这一件事,其本质在于分析变化前后的动态,例如可以分析样本与样本之间的影响,样本输入对模型输出的影响等等。因此,本系列主要参考一篇博士大论文:Learning Dynami...

An Overview of Artificial Intelligence Applications for Power Electronics

前言 这篇整理算是回归老本行,AI4PE这个领域十分交叉,既要熟悉计算机领域的内容,还要对电力电子有着深刻的理解,或许和我本科学通信蛮有较大的关联度。本篇的整理源自2020年发表的一篇综述,由于AI领域的迅猛的发展,综述里许多AI的技术在目前看来已经较为古老。但从电力电子领域的角度来看,我们的最终目的是利用AI处理这里的问题。因此,AI的方法可以迭代更新,但电力电子领域内的问题依旧变化不大...

如何选取最合适的预训练模型(3)

前言 上两篇文章我们分别讲解了LogME和DISCO的原理以及实验小结论。诚然,这两种方法都有效的展示了基础模型和数据之间的关系,LogME直接的利用贝叶斯边际似然的方法,给不同的基础模型打分;DISCO细致的观察不同奇异值和分类分数之间的关系,更细粒度的展示了基础模型微调前后的变化,后续的实验也验证了它们的准确性。 然而,我们依旧对微调这件事有些茫然。具体来说,我们只通过微调时奇异值的流...

DeepSeek LLM - Scaling Open-Source Language Models with Longtermism

paper:DeepSeek LLM code:Github 前言 目前deepseek大火,很多文章也对其团队发出的技术报告进行了详细的解读和分析,但更需要的是从头开始一步一步展示deepseek发展过程,而这里就是他们的第一篇技术报告。 另外,现有的主流文章仅介绍了他们第一篇技术报告的大体框架。但正如标题所言,他们创新的亮点在于对缩放定律(Scaling Law)的详细研究,因此我的...

PFML:self-supervised learning of time-series data without representation collapse

paper:PFML code:Github ABSTRACT 论文大致介绍了下自监督学习主要是利用数据的内在结构进行学习,也就是通过模型自己给数据定义标签。但是自监督学习由于模型的复杂性会导致两个问题: 算法复杂,需要优化很多超参数; 表征坍缩(representation collapse),即模型输出一个持续的输入不变的特征表示。 关于这两个问题后面还会有详细的例子...