PEFT(Parameter-Efficient Fine-Tuning,参数高效微调)是一系列旨在以极低训练成本,通过微调大型预训练模型中极小部分参数,使其高效适配下游任务的技术总称。其核心思想是在保持预训练模型主体参数“冻结”不变的前提下,仅引入或激活少量可训练参数,从而在获得与全参数微调相近性能的同时,大幅降低计算与存储开销。
可以将大型预训练模型想象成一个已经博览群书、知识渊博的学者。传统的全参数微调相当于要求这位学者为了学习一门新技能(如下游任务),把大脑里所有的知识都重新梳理和修改一遍,过程耗时耗力。而PEFT技术则提供了更巧妙的方案:它让学者保持其原有的庞大知识库基本不变,只是为他配备一个轻便的“智能笔记本”或几个“功能插件”。

具体而言,PEFT通过几种主流方法实现:其一,适配器(Adapter),在模型的层与层之间插入微小的、可训练的神经网络模块,仅训练这些“插件”;其二,前缀微调(Prefix Tuning)或提示微调(Prompt Tuning),在模型输入层或中间层添加一系列可学习的“虚拟提示词”向量,通过调整这些向量来引导模型输出;其三,低秩适应(LoRA),其假设模型在适配新任务时权重变化具有低秩特性,因此用两个低秩矩阵的乘积来模拟这种变化,仅训练这两个小矩阵。所有这些方法的共同点是,它们都绕过了对原始数十亿甚至万亿参数的直接更新,转而优化一个规模可能不足原模型0.1%的参数子集。

与PEFT参数高效微调紧密相关的概念包括:微调(Fine-Tuning)、预训练语言模型(PLM)、低秩适应(LoRA)、适配器(Adapter)、提示工程(Prompt Engineering)、灾难性遗忘(Catastrophic Forgetting)以及迁移学习(Transfer Learning)。

若希望深入了解PEFT,可查阅其里程碑式的综述论文《Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning》。此外,开源库如Hugging Face的PEFT库提供了LoRA、Prefix Tuning等主流方法的实践代码,是动手学习的优秀起点。对于希望理解其数学原理的读者,可以进一步研究低秩矩阵分解与模型内在维度相关的理论工作。

