Reader

ICLR 2025 | 大模型是否能做到有效“遗忘”?从梯度视角重新审视LLM反学习方法

| 机器之心 | Default

大型语言模型(LLM)通过海量数据训练获得强大能力,但也可能记忆敏感信息(如隐私数据、版权内容),引发法律和伦理风险。模型反学习(Unlearning) 技术应运而生——它的目的在于精准“擦除”目标知识,同时保持模型其他能力不受损。然而,现有反学习方法离这个目标相差甚远,但现如今仍缺乏统一的框架尽心深入分析与比较,大大限制了LLM反学习的发展。因此,香港浸会大学与康奈尔大学合作发表论文《Rethinking LLM Unlearning Objectives: A Gradient Perspective and Go Beyond》,提出了一个名为梯度效应的分析框架,旨在从梯度角度系统性地分析各种反学习方法的性能变化及其内在机制。基于此分析,作者提出了一系列改进的遗忘目标,大大提升了LLM反学习的有效性。

论文已在ICLR 2025发表:

论文标题: Rethinking LLM Unlearning Objectives: A Gradient Perspective and Go Beyond

论文链接:https://www.arxiv.org/abs/2502.19301

项目代码:https://github.com/tmlr-group/G-effect


引言

大型语言模型(LLMs)在语言理解领域取得了显著进展,但同时也带来了数据记忆和隐私泄露等问题。这些模型容易记忆训练数据中的敏感信息(如版权和隐私内容),可能导致法律与伦理风险。因此,研究者们提出了模型反学习(LLM Unlearning)这一研究领域,即在不进行完整重新训练的情况下,有针对性地删除模型中已参数化的不良知识,同时尽可能保持其他知识的完整性。

当前的遗忘方法中,经典的梯度上升(Gradient Ascent,GA)方法尽管简单有效,但容易出现过度遗忘的情况,即在删除目标知识时严重损害整体模型性能。随后出现了多种改进方法,如负偏好优化(Negative Preference Optimization,NPO)、偏好优化(Preference Optimization,PO)和表征误导遗忘(Representation Misdirection for Unlearning,RMU)等,但这些方法各有特点,尚未有统一框架对其进行深入分析。

为解决以上问题,作者提出了一种名为梯度效应(Gradient Effect,G-effect)的分析工具,从梯度视角量化不同遗忘目标对模型性能的影响。该工具的优势在于能够细致地分析遗忘在不同数据实例、更新步骤和模型层次上的具体影响。利用G-effect,作者对现有方法进行了系统分析,揭示了一些不足之处,并提出了一系列新的改进方法。此外,作者还指出了未来值得探索的研究方向,期望推动这一重要领域的发展。

梯度效应

G-effect(梯度效应)通过比较遗忘目标函数和性能度量的梯度方向和大小,来量化特定遗忘目标对模型性能造成的影响。具体而言,G-effect定义为遗忘目标和风险函数的梯度之间的点积:

其中,表示在第t步更新时反学习方法对整体性能的影响。G-effect进一步区分为:

·unlearning G-effect:反映反学习方法对目标(待遗忘)数据性能的影响。显著负值表示有效遗忘。

·retaining G-effect:反映反学习方法对非目标(不需遗忘)数据性能的影响。值为正或接近于零表示模型的整体性能得以保持。

G-effect之所以有效,依赖于一阶近似假设,即遗忘前后模型参数变化较小,因此性能变化可以由梯度之间的点积较好地近似描述。这一工具的优势在于能够从梯度的视角系统地揭示遗忘目标函数的具体作用机制:它不仅提供了一个统一且可解释的分析框架,还能够帮助研究人员更好地设计和评估新的反学习方法,推动LLM反学习领域的进一步发展。

分析

作者使用G-effect对几种主流的LLM反学习方法进行了深入分析,包括GA(梯度上升法)、NPO(负偏好优化)、PO(偏好优化)、RMU(表征误导遗忘)以及一些主流的正则化方法(如GD、KL、RR),主要结论如下:

1.GA梯度上升法GA通过增长目标数据的损失值实现反学习,虽然反学习效果显著(目标数据G-effect显著负值),但很容易出现过度反学习,严重损害非目标数据的性能(非目标数据G-effect也大幅负值)。此外浅层参数尤其容易受GA影响,表明一般知识被显著扰乱。

2.NPO负偏好优化。NPO通过引入权重机制缓解了GA的过度反学习问题,表现出更好的保留非目标数据的能力(非目标数据G-effect更接近零或正值),其形式为。NPO的权重机制具有“早停止”效应,随着目标数据置信度的下降逐步降低权重,因此避免了GA中后期过度关注已遗忘数据的缺陷。

图 1。NPO在不同参数下的梯度效应比较。

图 2。NPO的重加权作用可视化,以及TNPO的梯度效应。

3.PO偏好优化PO旨在通过新输出覆盖旧知识,而非直接删除旧知识。分析发现,PO的反学习效果仅在模型更新的早期阶段有效,后期可能反而促进旧知识的重新学习(后期目标数据G-effect逐渐转为正值)。

4.RMU,表征误导遗忘。RMU通过扰动模型表征来实现反学习,实验发现中间层扰动效果优于浅层或深层扰动。RMU对参数表现相对敏感,且和GA类似,RMU也可能出现过度遗忘问题,非目标数据的G-effect出现明显负值。

图 3。RMU的梯度效应。

5.GD梯度差异KLKL散度;以及RR表征保持。GD和KL正则化能有效保持模型在非目标数据上的表现,KL的效果更稳定更强。RR正则化效果欠佳且不稳定,在某些情况下甚至损害模型性能。

图 4。正则项的梯度效应。

作者在分析现有方法基础上,提出了一系列新的LLM遗忘方法,主要包括以下几个:

1.WGA加权梯度上升法。经典梯度上升(GA)在遗忘目标数据时,容易过度遗忘,严重损害模型在其他数据上的表现。通过对目标数据的每个token的损失进行置信度加权,基于,使模型对已充分遗忘的数据不再过度关注,从而缓解过度遗忘问题。

图 5。GA和WGA的梯度效应比较。

2.TNPO逐token负偏好优化原始的负偏好优化(NPO)虽然表现出一定优势,但其权重机制是基于整体数据实例的,粒度较粗,难以精细控制。将NPO的权重机制应用于每个token上(而非整个实例),提供更细粒度的控制能力。其实现基于,其中,

3.WTNPO,加权逐token负偏好优化TNPO在某些情况下仍存在过度遗忘风险,尤其当token权重接近于1时。进一步将WGA的置信度加权机制应用在TNPO的基础上,形成WTNPO,提供更加稳健的控制。

图 6。TNPO和WTNPO的加权动态可视化。

实验验证

本文在TOFU数据集上对几种遗忘方法进行了实验评估(包括GA、PO、NPO、RMU以及新提出的WGA、TNPO、WTNPO),实验使用Phi-1.5和Llama-2-7B两种主流LLM模型,分别在1%、5%、10%的遗忘数据比例下进行测试,得到以下关键结论:

1.GA梯度上升法在删除目标数据的知识方面表现突出,但会严重损害非目标数据的整体性能。

2.PO偏好优化。效果较差,甚至可能意外地保留本应遗忘的知识,不适合用于通用的LLM反学习。

3.NPO,负偏好优化和RMU,表征误导遗忘。均能在一定程度上平衡反学习与保持性能,NPO整体表现优于RMU,尤其是在稳定性方面。

4.新提出的方法(WGA、TNPO和WTNPO)。·明显缓解了GA和NPO的不足,尤其在避免过度反学习和保持整体模型性能方面表现优异。在大多数测试场景下,WGA和WTNPO展现了当前最好的综合性能,特别是WGA因超参数调优简便(仅需调整一个参数)而被推荐为默认方法。

图 7。TOFU基准数据集上各类算法的量化比较。

结语

LLM中的反学习旨在有效删除特定的不良知识,同时尽可能保持模型整体性能不受损害。本文针对现有多种常用的反学习目标函数,提出了一种名为梯度效应的新工具,以深入分析各类目标函数的作用机制和性能影响。我们发现GA在反学习能力上表现突出,但存在过度反学习的风险,可能严重损害模型的通用性能。为改善GA的不足,我们提出 WGA,能有效控制反学习强度。通过NPO的分析, TNPO及其加权优化版本WTNPO,实现了反学习与性能保持之间更优的平衡,并在实验中取得了新的最佳性能。虽然我们提出的方法取得了显著进步,但实际应用中仍需辅助正则化项以确保模型整体性能的稳定性。未来需要进一步研究更先进的反学习目标函数、优化方法和评估指标,以推动LLM反学习的发展。

课题组介绍

香港浸会大学可信机器学习和推理课题组 (TMLR Group) 由多名青年教授、博士后研究员、博士生、访问博士生和研究助理共同组成,课题组隶属于理学院计算机系。课题组专攻可信表征学习、可信基础模型、基于因果推理的可信学习等相关的算法,理论和系统设计以及在自然科学上的应用,具体研究方向和相关成果详见本组 GitHub (https://github.com/tmlr-group)。

课题组由政府科研基金以及工业界科研基金资助,如香港研究资助局杰出青年学者计划,国家自然科学基金面上项目和青年项目,以及微软、英伟达、字节跳动、百度、阿里、腾讯等企业的科研基金。青年教授和资深研究员手把手带,GPU 计算资源充足,长期招收多名博士后研究员、博士生、研究助理和研究实习生。此外,本组也欢迎自费的访问博士后研究员、博士生和研究助理申请,访问至少 3-6 个月,支持远程访问。有兴趣的同学请发送个人简历和初步研究计划到邮箱 ([email protected])。