【学术科研】智能算法安全重点实验室(中国科学院)师生论文获EMNLP 2024 Best Paper Award
近日,智能算法安全重点实验室(中国科学院)博士生张伟超(导师:郭嘉丰研究员)为第一作者的论文Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method(大语言模型的预训练数据检测:基于散度的校准方法)获得EMNLP 2024大会最佳论文奖(Best Paper Award)。
自然语言处理实证方法会议(The 2024 Conference on Empirical Methods in Natural Language Processing,简称EMNLP 2024),是计算语言学和自然语言处理领域的顶级国际会议,在CCF推荐会议列表中被列为B类会议,在相关领域享有较高的学术声誉。11月12日至16日,大会在美国佛罗里达州迈阿密召开。本次大会共收到投稿6105篇,共收录论文2978篇,其中2455篇主会议论文,获奖论文由最佳论文奖委员会从领域主席和资深领域主席提名的114篇候选中评选产生,最终有5篇论文获得最佳论文奖。
Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method
作者:张伟超,张儒清,郭嘉丰,Maarten de Rijke ,范意兴,程学旗
论文链接:https://arxiv.org/abs/2409.14781
代码链接:https://github.com/zhang-wei-chao/DC-PDD
内容简介:近年来,大语言模型(LLMs)的训练数据规模在不断扩大,而模型开发者却越来越不愿意公开训练数据的使用信息,这种情况使得审查大模型的数据使用过程是否符合法律法规面临困难。近期,在大模型上进行预训练数据检测的任务开始受到关注,即给定一段文本和一个预训练数据未知的大模型,仅依靠黑盒访问条件来推断该文本被用于大模型的预训练过程。Min-K% Prob方法在一些基准数据集上取得了最好的效果,该方法假设非训练文本往往包含一些具有低词元概率的异常词。然而,该方法容易将包含较多频繁词的非训练文本误分类为训练文本。受信息检索领域的divergence-from-randomness理论启发,我们提出了一种新的预训练数据检测方法DC-PDD来解决这个问题。DC-PDD通过计算词元概率分布与词元频率分布之间的交叉熵(即divergence)作为检测信号。此外,我们提出了一个中文基准数据集PatentMIA,用于评估中文数据检测方法的性能。在现有的基准数据集和PatentMIA上的实验结果表明,DC-PDD显著优于现有方法。