这项研究来自丹麦哥本哈根大学计算机科学系,论文题为《Offline Evaluation Measures of Fairness in Recommender Systems》,于2025年5月31日提交至哥本哈根大学理学院博士学位论文答辩,同时以arXiv预印本形式于2026年4月27日公开发布,编号为arXiv:2604.25032。感兴趣的读者可通过该编号在arXiv平台检索完整论文。
每天打开手机,你接触到的几乎每一条视频推荐、每一首歌单、每一则新闻资讯,背后都有一套推荐系统在运作。这套系统像一个经验丰富的图书馆员,试图从浩如烟海的内容里挑出你最可能喜欢的那几本书递到你手上。但这位"图书馆员"有没有可能存在偏心?它会不会总把某几位作者的书堆在最显眼的位置,而让另一些优秀作者的作品永远蒙尘?这个问题,就是推荐系统领域里越来越受到重视的"公平性"问题。
欧盟《人工智能法案》等法规的出台,把公平性从学术讨论推向了法律层面的强制要求。于是,研究者们开始开发各式各样的评估指标,试图用数字来衡量一个推荐系统到底"公不公平"。然而,哥本哈根大学的研究团队发现,这些指标本身就存在严重的问题——许多指标在被提出之后,并没有经过充分的检验,就直接被学术界拿去使用了。这就好比有人发明了一把尺子,声称能测量房间的长度,但从来没有人去核对过这把尺子的刻度是否准确,更没有人测试过它在各种极端情况下会不会给出荒唐的读数。
这篇博士论文正是一场针对这些"尺子"的系统性检验。研究者充当侦探,拿着放大镜逐一审查现有的公平性评估指标,找出它们的缺陷,尝试修复能修复的,并对无法修复的给出明确说明。整个研究覆盖了推荐系统公平性的三大方向:对个别物品(比如一首歌、一部电影)是否公平、对个别用户是否公平,以及对不同群体的用户是否公平。
一、为什么"公平"这件事这么难量化
要理解这项研究,先得搞清楚推荐系统的公平性究竟在说什么。这里有两个主要的关注对象:一个是用户,一个是物品(或物品的提供者)。
从用户角度看,公平性的核心问题是:推荐系统有没有对某些用户特别好、对另一些用户特别差?比如,一个音乐推荐系统如果总能给口味主流的用户推送精准的歌单,却对品味小众的用户给出一堆风马牛不相及的推荐,这就是一种用户层面的不公平。从物品提供者角度看,公平性的问题是:系统有没有只反复推荐少数几件物品,而让大多数物品永远曝光不了?一位独立音乐人辛苦录制的专辑,如果永远都不会出现在任何用户的推荐列表里,那么无论这张专辑质量多好,它都没有机会被发现,这对这位音乐人显然是不公平的。
公平性还可以从"粒度"上分成两类:一类是针对群体的公平,比如男性用户和女性用户收到的推荐质量是否相当;另一类是针对个体的公平,比如每个独立用户或每件独立物品的待遇是否合理。这两类公平之间有一个微妙的关系——在群体层面表现得非常公平的系统,在个体层面可能依然存在巨大的不平等,而这项研究的一个重要发现正与此有关。
现有的公平性评估指标,像一套套不同款式的量衡工具,各有侧重:有的只看物品的曝光次数是否均匀,有的同时考虑曝光和物品与用户的相关性,有的衡量不同用户组之间推荐效果的差距,有的考察相似用户是否得到相似推荐。但这些工具在被广泛使用之前,有没有经过严格的质量检验?这正是整个研究的出发点。
二、物品公平性的第一次大检验:只看曝光,不看相关性
研究的第一个侦查方向,是针对那些只衡量物品曝光是否均匀的指标。研究者收集了全部八类纯曝光型物品公平性指标,将它们放在显微镜下逐一审查。
这类指标的基本逻辑是:一个公平的推荐系统,应该让所有物品都有机会出现在用户的推荐列表里。就像一家书店,理想状态是每本书都能被顾客看到,而不是永远只有那几本畅销书摆在最显眼的地方。
审查结果令人忧虑。研究者发现了五大类理论缺陷,而且每个指标都至少中招了两个以上。
第一大缺陷叫"不可实现性"。这个问题的本质是:指标声称自己的分数范围是0到1,0代表最不公平,1代表最公平,但在实际推荐场景中,这两个端点根本无法达到。打个比方,就像一把温度计宣称能测0度到100度的水温,但你把它放进冰水里,显示的最低值是5度;放进沸水里,最高值只能到92度。你以为自己在看一个满分100分的考卷,实际上满分只有92分,最低分也不是0分。在这种情况下,即便你看到一个系统得了50分,你也根本无法判断它到底是好是坏,因为那个参照系已经失真了。研究者进一步分析了造成这个问题的四种具体原因:最不公平的分数只有在完全不现实的极端场景下才能出现;推荐名额少于物品总数时最公平的分数无法达到;推荐名额不能被物品总数整除时也会出现偏差;以及一些指标因为使用了非均匀的曝光权重,导致边界值无法用数学公式精确计算。
第二大缺陷叫"数量不敏感性",只影响其中一个指标。这个问题是说,这个指标只在乎一件物品有没有被推荐过,完全不在乎它被推荐了多少次。所以无论一首歌被推荐给一万个用户还是只推荐给一个用户,在这个指标眼里都是一样的。这就像一个考勤系统,只记录员工到没到公司,但不管他到了之后是工作了8小时还是签完到就走人了。
第三大缺陷叫"未定义性",影响的是熵指标。这个问题很直接:当某些物品完全没有出现在任何推荐列表里时,指标的计算公式会遇到"log 0"这个数学上无意义的操作,整个指标就直接罢工了,无法给出任何数值。在真实的推荐场景里,总有大量物品会被系统忽略,所以这个问题不是偶发的边缘案例,而是一个经常出现的现实麻烦。
第四大缺陷叫"永远满分",只影响一个基于"最大最小公平份额"概念设计的指标。当推荐名额少于物品总数时,这个指标会永远给出满分——无论推荐结果有多糟糕,它都大声宣告"一切公平"。这就好比一个巡视员,只要超市货架上的商品数量超过了他要检查的那几层,他就直接盖章说"所有商品都陈列到位了",连看都不看。
第五大缺陷叫"对物品表示方式的依赖性",影响的是一个基于物品相似度来判断相似物品是否被公平对待的指标。这个指标的分数会随着物品的表示方式(比如用哪种嵌入向量来表达物品特征)的变化而大幅波动,甚至同样两件物品,用不同的特征表示方法来判断它们是否"相似",会得出完全相反的公平性结论。这把量衡工具的刻度,随时会因为测量方法的改变而悄悄移动。
针对这些缺陷,研究者提出了对应的修复方案。对于不可实现性问题,他们推导出了每个指标在具体数据集和具体推荐名额设置下实际能达到的最公平和最不公平分数,然后用这两个实际边界对原始分数做归一化处理,让指标的刻度重新变得真实可靠。对于未定义性问题,他们修改了熵指标的计算方式,让它跳过那些没有被推荐过的物品,直接聚焦于实际出现在推荐列表里的物品。对于数量不敏感性问题,他们指出可以用Jain指数替代,因为Jain指数确实对推荐次数的多少敏感。而永远满分和对物品表示方式的依赖这两个缺陷,研究者坦诚地解释了为什么它们无法在不根本改变指标设计理念的前提下得到修复。
通过大量实验验证,研究者发现,修复后的指标确实能够正确地将实际最公平的推荐映射到满分、最不公平的推荐映射到零分,而原始指标在这一点上全部失败。此外,实验还揭示了几个令人不安的现象:某些指标(比如II-D)在单轮推荐场景下,无论推荐结果怎么变,分数永远相同;某些指标(比如AI-D)的分值细如毫发,不同系统之间的差距只体现在小数点后第四位,实际上根本无法区分系统的好坏;而Gini加权版指标比普通Gini版本更严格,会给同样的推荐结果打出更低的公平分数。
三、当曝光遇上相关性:更复杂的联合评估指标同样漏洞百出
第一波检验之后,研究的侦查视角转向了更复杂的一类指标——那些同时考虑物品曝光和物品与用户相关性的联合评估指标。这类指标背后的逻辑是:公平不只是让每件物品都被看到,更重要的是让每件物品在它真正适合的用户面前出现。如果一部动作电影被推荐给了一群只喜欢文艺片的用户,这种曝光对电影制作方来说并没有多少实际价值,因为没有人会因此看这部电影。
研究者收集了全部七类联合评估指标,经过理论分析和大规模实验,发现了同样令人担忧的系统性问题。
在实验部分,研究者针对这类指标提出了一个尖锐的问题:当我们把相关性高的推荐换成既相关又公平的推荐时,指标的分数会不会如实地反映这种改善?实验结果给出了令人沮丧的答案:大多数联合指标几乎对这种改善毫无反应,分数几乎纹丝不动。这就好比你去看病,医生说要量体温,但无论你是发烧39度还是正常36度,体温计的示数都在36.5附近波动,完全没有诊断价值。
更具体地说,研究者发现这七个联合指标可以分成三个阵营。第一个阵营由IAA、HD和II-F组成,它们的行为模式和传统的推荐效果指标(如NDCG)高度一致,换句话说,它们实际上在衡量的是推荐有没有效果,而不是推荐有没有公平性。第二个阵营由IFD、MME和AI-F组成,它们和纯曝光型公平指标的行为更像,对推荐效果的变化则反应迟钝。第三个阵营只有IBO和IWO这一对,它们和前两个阵营都不太一样,但也没有稳定地同时捕捉到公平性和效果两个维度。
针对这类指标,研究者也识别了若干理论缺陷。不可实现性问题在这里同样存在,而且出现的原因有所不同:联合指标同时依赖物品曝光权重和物品相关性这两个维度,当这两个维度的变化速率不同步时,最公平和最不公平的理论边界就无法通过简单公式计算出来。非局部化问题是联合指标特有的缺陷,意思是这些指标需要用到推荐列表之外的信息——比如一个用户到底有多少件相关物品、哪些物品排在推荐名额之外的位置——而这些信息在很多真实场景中是未知的,导致指标的分数对数据不完整性极为敏感。未定义性问题主要出现在IAA和IBO/IWO这几个指标上,前者在推荐名额为1时会触发除以零的错误,后者在某件物品没有任何用户认为它有价值时也会崩溃。零曝光权重问题专属于IAA,它对排在最后一个位置的推荐物品赋予了零权重,导致修改这个位置的推荐对指标分数毫无影响,就好像这个位置的推荐根本不存在一样。顶K不敏感性问题专属于IFD÷,无论你把推荐名额设为5还是设为50,这个指标给出的分数都完全相同,推荐名额这个变量对它而言形同虚设。
研究者对这些能修复的缺陷提出了对应的修正方案,并通过实验验证了修正版指标确实能将最公平的推荐映射到零分、最不公平的推荐映射到满分,而原始指标在这一点上全部失败,实际可达的分数范围极度压缩,几乎所有推荐都集中在接近零分的区域——这意味着即便是最糟糕的推荐,这些指标也会告诉你"非常公平"。
基于这些发现,研究者为从业者提供了一份详细的选用指南,从六个维度评估每个联合指标:对齐性(它更像效果指标还是公平指标)、可计算性(在什么条件下无法使用)、可解释性(分数能不能清晰地对应到最公平和最不公平的场景)、表达力(能不能区分不同质量的推荐)、稳定性(对相关性标注的微小变化是否过于敏感)、效率(计算时间是否可以接受)。经过综合权衡,修正后的IFD×指标和修正后的IBO/IWO指标被推荐为首选,而原始版本的IFD×、MME和AI-F由于分数过于压缩、几乎无法区分不同系统的公平性,应当避免使用。
四、把公平性和推荐效果放在同一张地图上:Pareto前沿方法
揭示了现有联合指标的种种弊病之后,研究的下一步是提出一个更可靠的联合评估框架。这个框架的核心思想,可以用一张地图来理解。
在这张地图上,横轴代表推荐效果(越靠右效果越好),纵轴代表公平性(越靠上越公平)。你把每个待评估的推荐系统都标记在这张地图上,它们就像散落在地图上的城市。现在的问题是:在这些城市里,哪座城市的地理位置最理想?最朴素的想法是选距离右上角(效果最好且最公平的理想点)最近的那个,但问题在于,那个理想的右上角点在现实中很可能根本不存在——因为提高公平性往往需要牺牲一些效果,反之亦然。
研究者引入了"Pareto前沿"这个概念。Pareto前沿是地图上的一条曲线,由那些在效果和公平性之间做到了最优权衡的推荐方案连成的。这条曲线上的每一个点,都代表着一种"在不牺牲公平性的前提下,效果已经最大化;或者在不牺牲效果的前提下,公平性已经最大化"的理想方案。
这条Pareto前沿是基于数据集本身生成的,与具体使用了哪个推荐系统无关。研究者开发了一套名为Oracle2Fair的算法来生成这条前沿:首先,算法构建一个效果尽可能高的初始推荐——假设每个用户的推荐列表里全是他们真正喜欢的物品(来自测试集);然后,算法逐步地用那些曝光次数少的物品替换掉那些曝光次数多的物品,每一次替换都会让公平性提升、效果略微下降,由此生成一系列Pareto最优的推荐方案,连成那条前沿曲线。
有了这条曲线之后,评估任何一个推荐系统的步骤就变得清晰了。首先,根据你对效果和公平性的相对重视程度(通过一个权重参数来设置),在前沿曲线上找到对应的参考点;然后,计算被评估系统的(效果,公平性)坐标与这个参考点之间的欧式距离。距离越小,说明这个系统越接近理想的权衡方案;距离越大,说明它在效果和公平性的平衡上还有很大的提升空间。
研究者在六个不同规模和领域的数据集(电商、电影、音乐、视频、笑话)上,用四种推荐模型和三种公平性重排策略进行了大规模实验。实验发现了几个重要结论:单独的效果指标和单独的公平性指标,都无法可靠地替代Pareto前沿方法来选出在两者之间达到最优平衡的系统;现有的联合指标同样无法作为可靠的替代,因为它们和Pareto前沿方法选出来的最优系统经常是不同的;简单地对效果分数和公平性分数取平均,有时候和Pareto前沿方法得出相同结论,但在效果分数差异大的情况下(尤其是使用排名型效果指标如MAP、NDCG时),两者结论相悖的概率高达58%。换句话说,用取平均的方式来同时评估公平性和效果,在近乎一半的情况下会给你错误的答案。
此外,研究者还开发了一个高效版本的Pareto前沿计算方法,只需计算整条前沿上少数几个代表性点(比如6到12个),就能高精度地还原完整前沿的形状,使得评估结论几乎不受影响,同时大幅降低计算成本。对于大规模数据集而言,高效版本可以比MME指标的计算快35倍以上。
五、用户公平性的新尺子:相似用户应该得到相似的推荐效果
研究的侦查视角从物品转向了用户。对于用户来说,个体公平性的经典定义是:相似的用户应该被相似地对待。但研究者发现,现有的用户个体公平性评估指标在这一点上存在一个根本性的概念漏洞。
现有指标大致分为两类。一类(如标准差、Gini指数、基于嫉妒的系列指标)只看所有用户的推荐效果(如Precision@k或NDCG@k)是否均匀分布,完全不考虑用户之间的相似性。这就像评估一所学校是否公平,只看所有学生的考试成绩是否接近,却不考虑那些拥有相似学习背景和相似努力程度的学生是否得到了相似的教育资源。两个兴趣爱好迥异的用户,推荐效果本来就可能差别很大,这不一定是不公平,因为他们的需求根本就不同。另一类(如UF指标)虽然考虑了用户相似性,但它衡量的是相似用户的推荐列表中的物品表示有多接近,而不是推荐效果有多接近。这就带来了一个荒谬的可能性:如果两个相似用户都收到了完全相同的糟糕推荐——两个人都不喜欢,UF指标会说"非常公平",因为推荐列表完全一样;但显然,这并不是真正意义上的公平,因为相似的用户并没有得到与他们相似度相称的良好推荐效果。
针对这个概念漏洞,研究者提出了一个新的评估指标,命名为"成对用户不公平度"(PUF)。PUF的计算逻辑是:对所有用户两两配对,计算每对用户之间的相似度(可以用余弦相似度或Jaccard相似系数来度量,基于用户的历史交互数据),再计算他们推荐效果的差值(比如NDCG分数之差的绝对值),然后把相似度乘以效果差值,最后对所有用户对取平均。结果越大,说明整体越不公平——因为有很多高度相似的用户,却获得了差异悬殊的推荐效果。
PUF这个指标实现了一个简洁而重要的逻辑:不相似的用户即便推荐效果差别很大,对PUF的贡献也很小,因为相似度接近零;而高度相似的用户如果推荐效果差别巨大,会对PUF分数产生很大的拉升。这正是"相似的人应该得到相似的待遇"这一公平原则在数学上的自然表达。
研究者通过大量实验验证了PUF的有效性。当刻意构造"相似的用户获得相似效果"的场景时,PUF分数接近零(最公平);当构造"相似的用户获得截然不同效果"的场景时,PUF分数显著升高。而现有的类似度型指标UF,在这两种场景下分数几乎没有变化,完全无法区分。PUF对用户相似度分布变化的响应也符合直觉:当用户群体整体更相似时(比如用户之间的交集更多),PUF对效果差异的惩罚更重;当用户群体整体很不相似时,PUF分数自然偏低,因为不相似的用户之间的效果差异本来就不那么重要。
研究者还验证了PUF在计算效率上的优势:它比MME、UF等同样涉及用户配对计算的指标快得多,在大型数据集上的计算时间从数小时压缩到了几十秒,大大提高了在实际工程中使用的可行性。
六、群体公平和个体公平:两套账本永远对不上
研究的最后一个方向,转向了群体公平和个体公平之间的关系。这是一个在理论上被反复讨论、但在实证上极少有人系统研究的问题。
研究者使用了四种大型语言模型(Llama-3.1-8B、Qwen2.5-7B、GLM-4-9B和Ministral-8B)作为推荐系统,在三个包含用户敏感属性信息的数据集(电影推荐数据集ML-1M、求职推荐数据集JobRec和音乐推荐数据集LFM-1B)上进行实验。每个数据集都有至少三个用户属性维度(如性别、年龄、职业或专业),研究者将这些属性的所有组合考虑进去,构建了"交叉群体"。
核心发现令人惊讶:一个推荐系统完全可以在群体层面看起来非常公平,同时在个体层面极度不公平。具体来说,当按照群体计算公平性时(比如比较女性用户和男性用户收到的平均推荐质量),分数往往显得还不错;但当把每个用户都单独看待、计算所有用户的推荐质量的差异时,这个差异往往远远大于群体之间的差异。
为什么会这样?因为群体内部的差异通常远大于群体之间的差异。比如,女性用户整体的平均推荐质量和男性用户整体的平均推荐质量可能相当接近,但女性用户内部有的人推荐质量极高、有的人推荐质量极低,这种内部差异在计算群体公平性时被"平均化"了,看不出来。就像两个班级的平均成绩相同,但其中一个班里有人考满分、有人几乎不及格,另一个班里所有人成绩都在中等水平,从"班级平均分"来看,两个班一样公平,但实际上前一个班存在严重的内部不均等。
研究者进一步发现,随着用于定义群体的属性数量增加(从单一属性到两个属性再到三个属性的交叉组合),群体之间的不公平程度逐步上升,而组内不公平程度则相对稳定。这意味着你考虑的用户群体维度越细,系统的表现看起来越不公平——但这种"更不公平"主要来自于群体数量增加带来的比较维度扩展,而不是因为系统真的在某些特定群体上表现更差了。
另一个重要发现是:负责衡量个体公平性的指标和负责衡量群体公平性的指标,在对推荐系统进行排名时,往往给出完全不同的顺序。这意味着,如果一个研究者只报告群体公平性,而另一个研究者只报告个体公平性,他们可能会对同一个系统得出截然相反的"哪个最公平"的结论。目前学术界大量研究只关注群体公平性,而个体公平性被严重忽视。这项研究明确提出,两者都应该报告,因为它们不能互相替代。
此外,研究者还发现,不包含用户敏感属性的推荐(即系统不知道用户的性别、年龄等信息)和包含敏感属性的推荐,在公平性上差别往往不大——除了Ministral-8B这个模型在音乐数据集上出现了例外,可能与这个模型本身存在的性别偏见有关。这个发现对于那些担心"把用户属性告诉推荐系统会导致更大歧视"的人来说,是一个有一定参考价值的数据点,当然并不意味着包含属性就一定没问题。
七、最终的侦探手册:如何正确使用这些不完美的工具
在完成了这一系列系统性的检验之后,研究者将所有发现凝结成一套实用指南,供研究者和工程师参考。
对于纯曝光型物品公平性指标,建议使用修正版的Jain指数、QF、熵、Gini和FSat来评估绝对公平性(即与最好和最坏场景相比较),而不要只看原始分数。特别要注意FSat指标在推荐名额少于物品总数时永远满分的问题,在这种情况下根本不能使用它。修正版Gini加权指标在推荐名额不超过物品总数时最为可靠。II-D指标在单轮推荐场景下因为分数永远恒定而毫无用处,应避免使用。
对于联合评估指标,研究者建议优先考虑使用修正后的IFD×和修正后的IBO/IWO,因为它们在对齐性、可解释性和表达力上的综合表现最好,而且计算效率可以通过并行化大幅提升。绝对不要使用原始版本的IFD×、MME和AI-F,因为它们的分数几乎永远压缩在接近零的极小范围内,根本无法区分不同系统。
对于需要同时评估公平性和效果的场景,Pareto前沿方法是目前最可靠的选择,应当优先考虑使用MAP-熵或NDCG-熵这两个组合来生成Pareto前沿,因为它们的评估结论与简单取平均的方法区别最为显著,最能提供额外的信息价值。如果计算资源有限,6到12个Pareto前沿采样点已经足以获得可靠的评估结论。
对于用户个体公平性,新提出的PUF指标应当成为优先选择,因为它是目前唯一同时考虑用户相似度和推荐效果差异的指标,真正对应了"相似用户应得到相似待遇"这个公平原则。
对于群体公平性,研究者建议同时报告群体层面和个体层面的公平性,而不能用其中一个替代另一个。如果要选择一个同时适用于两个层面的指标,Atkinson指数和Gini指数都可以在群体和个体两种粒度下使用,而Atkinson指数还具有数学上的可分解性,能够清晰地把总体不公平分解为群体间不公平和群体内不公平两个成分。
说到底,这篇博士论文做的事情,像是一位认真的产品质检员,把市面上所有宣称能测量"公平"的尺子都拿来反复校验,发现几乎每一把都有问题,有的在极端情况下罢工,有的永远给出虚假的满分,有的根本测不到它声称要测量的东西。研究者的贡献不只在于揭露问题,更在于系统性地修复了那些能修复的缺陷,并对那些无法修复的给出了清晰的说明和替代建议。这对任何一个关心推荐系统公平性的研究者或工程师来说,都是一份不可多得的参考地图。
归根结底,推荐系统的公平性不是一个可以被某一个单一数字完美捕捉的东西。物品的公平和用户的公平是两件事,群体的公平和个体的公平也是两件事,纯曝光的公平和考虑相关性的公平同样是两件事。每一种公平背后,都是某些真实的人的真实利益——独立音乐人的曝光机会、口味小众的用户的满意度、不同群体用户之间的待遇差异。衡量这些利益是否得到了公正的对待,需要用到正确的工具,而这篇研究做的,就是帮我们把那些不准确的工具换成更可靠的。对于有兴趣深入了解这项工作的读者,可以通过arXiv编号2604.25032查阅完整论文。
Q&A
Q1:推荐系统公平性评估指标的"不可实现性"是什么意思,为什么会有这个问题?
A:不可实现性是指,评估公平性的指标声称分数范围是0到1,但在实际推荐场景中,最公平和最不公平的那两端分数根本无法达到。就像一把尺子标着0到100厘米,但你实际能测到的最大值只有92厘米、最小值从5厘米开始,导致你完全无法判断一个系统的公平程度到底处于什么水平。原因主要有四个:最不公平的场景只在极端不现实的情况下才会出现;推荐名额少于物品总数时没有足够的位置给所有物品;推荐名额不能被物品总数整除时会出现余数问题;以及某些指标使用了非均匀的曝光权重,使边界值无法精确计算。
Q2:Pareto前沿方法和直接取公平性与效果分数平均值相比,有什么区别,为什么不能简单取平均?
A:取平均的方式在约一半的情况下会给出错误答案,尤其是当使用排名型效果指标(如MAP、NDCG)且系统之间效果分数差异较大时,错误率接近58%。原因是两个分数的分布规律和量纲差异很大,简单平均会导致一个分数对另一个产生压倒性的影响。Pareto前沿方法则是基于数据集本身生成一条真实可达的最优权衡曲线,通过计算系统实际表现到这条曲线上参考点的距离来评估,这个评估有明确的物理意义,而且不受两个分数量纲差异的影响。
Q3:新提出的成对用户不公平度指标PUF和现有的UF指标有什么本质区别?
A:UF衡量的是相似用户的推荐列表中物品表示(如物品嵌入向量)有多接近,但完全不看推荐效果。这意味着即使两个相似的用户都收到了糟糕的推荐且都不满意,UF只要看到他们的推荐列表内容相似就会打出高公平分。PUF则衡量的是相似用户的推荐效果(如NDCG分数)是否接近,同时用用户相似度作为权重——相似度越高的用户对,如果效果差异越大,对PUF分数的拉升贡献越大。PUF直接对应了"相似的人应该得到相似的待遇"这个公平原则的核心含义,而UF在本质上回避了"待遇好不好"这个关键问题。