为了研究新知识的影响,他们采用ENTITYQUESTIONS数据集。首先要能评估某条微调数据是否与模型知识一致,因此他们提出了SliCK(Sampling-based Categorization of Knowledge),一个包含四种类别的知识分类体系(见figure2),首先知识被分为Known和Unknown,而Known又继续被划分为HighlyKnown, MaybeKnown和WeaklyKnown,他们划分的时候用了一个新定义的连续指标P_Correct来量化模型中的知识,这个指标是模型在被few-shot式地prompt问题后精确产生正确答案的可能性,作者按照不同解码方式下模型对答案的不同预测能力划分了这四个类别。