查看原文
其他

WSDM2023|知识蒸馏推荐如何去偏?何向南老师组提出UnKD

AINLP 2023-04-24

The following article is from 搜广推Daily Author 楠木

©作者 | 楠木

编辑 | 搜广推Daily

知识蒸馏(KD)作为一种有前途的模型压缩解决方案,已被应用于实时推荐中以减少推荐延迟。传统的解决方案首先从训练数据训练一个完整的教师模型,然后转移它的知识(即软标签)来监督一个紧凑的学生模型的学习。那么,什么是软标签呢?比如在推荐系统中,软标签可以是教师对用户-商品交互的预测,通常用于知识转移,这些KDs将根据软标签创建或采样训练实例,用于训练学生模型。因此,软标签的质量是知识蒸馏的基础。然而,所产生的软标签会产生严重的偏差问题,蒸馏后更强烈地推荐流行商品,使得学生模型无法做出准确公平的推荐,降低了操作系统的有效性。

本文中,作者找到了KD出现偏差问题的原因------教师的偏误软标签,导致标签在蒸馏过程中进一步传播和强化。所以作者提出了一种新的分层蒸馏策略的KD方法,首先根据的受欢迎程度将商品分成多个组,然后提取每个组内的排名信息来监督学生模型学习。分层策略几乎可以阻断教师偏见的因果效应。作者所提出的方法在蒸馏阶段,与教师模型训练无关。

实验结果显示,UnKD与其余方法相比,表现最佳。

论文标题:Unbiased Knowledge Distillation for Recommendation

收录会议:WSDM 2023

论文链接:https://doi.org/10.48550/arXiv.2211.14729

代码链接:https://github.com/chengang95/UnKD


01

方法

1.1 偏差问题

两幅图都表现出蒸馏存在偏差问题以及根源于教师的偏误软标签,也展示了现有方法仍然没有解决此类问题。

那么,如何解决呢?

第一种介入教师模型训练,生成无偏倚的软标签。但很难实现,一教师偏见源于很多种因素,完全消除存在很大挑战;二在实际应用中大型教师模型通常部署在复杂的分布式系统中,客观地调整其训练过程是困难的,更不用说教师模型可能是多个模型的集合。

第二种作者提出的无偏倚的教师竞争知识蒸馏UnKD方法。

1.2 因果图追溯蒸馏偏差

1.2.1 蒸馏偏差的来源

为了追溯蒸馏偏差的起源,并了解偏差如何影响学生模型,作者首先采用因果图进行定性分析。

其中M表示用户U与商品I之间真实亲和力得分,反映商品在多大程度上符合用户的偏好;Z表示商品受欢迎度;Y表示教师模型预测得到的软标签;S表示学生模型。虚线表示I、U也会对S有影响,但只关注通过蒸馏的因果效应,只看Y的影响因素。

软标签会受到受欢迎程度的影响,因此得到的软标签存在偏差。学生模型会在有偏差的软标签的监督下发生偏向。而且现有的KDs通常采用排名感知抽样策略来训练学生模型。那些通常得分异常高的热门商品会获得更多的抽样机会,从而对训练产生过大的贡献,在蒸馏过程中偏差会被放大。所以关键是阻断路径

1.2.2 量化偏差影响

利用反事实中的因果公式,即TE(总效应)=NDE(直接自然效应)+TIE(总间接效应)

首先作者计算总效应

其中表示可作比较的基准情况。

接着对于路径I→Z→Y,造成的影响:

最后,从I→Y有两条路径,I→M→Y为有利的,I→Z→Y为不利的,所以去除Z→Y的影响:

但是计算PEM非常困难,因为很难被求得。

所以大家若不明白这个公式来源也没有关系,可以只需明白思想,作者只是借用它去证明自己用的是同样有效的,而并不是实际用它进行计算。

1.3 无偏知识蒸馏

1.3.1 证明分组得到的知识无偏

UnKD首先根据商品的流行度将商品划分为多个组,其中一个组中的商品具有相似的流行度。之后对于每个用户,UnKD对同一组中的商品进行排序,并传递此类分组知识以监督学生模型的学习。

那么为什么得到的分组知识就确定是无偏的了呢?

作者给出了引理以及证明

引理1:对于每个用户,商品的流行度相似,则按照的排序与的排序相同。

证明:商品i、j的流行度相似,即

这意味着按群体划分的排名列表几乎是无偏的,UnKD将这种精确的人气分层排序知识提取出来,用于训练学生模型,避免了流行度的干扰。

1.3.2 UnKD三步骤

UnKD包括以下三个步骤:

(1)分组。按照流行度降序排列,流行度相似的商品放在同一组中,每组流行度总和要相同,分成K组。对于K的选取,若较大的K,商品有更细粒度的划分,每组商品在受欢迎程度上有更高的相似性,这意味着更有可能保持公平;但减少每组商品的数量,减少对商品排序关系的了解。相反,较小的K,可以带来更多信息,但代价是不公平。

(2)Group-wise Sampling。对每组商品进行软标签排序(图b中商品中的数字为软标签大小),抽样

(3)Group-wise Learning。蒸馏损失为:

训练学生模型的最终损失函数为:

02

实验

2.1 展现在不受欢迎商品上的提升

将结果分别以受欢迎群体和不受欢迎群体的形式进行可视化,可以看出:

1)现有的知识蒸馏方法的改进主要来自于热门商品,而非热门商品的性能严重受损。

2)UnKD的改进主要集中在冷门商品上,特别是在数据集CiteULike-BPRMF上,UnKD对于不受欢迎的商品实现了超过100%的性能增益。

最终得出UnKD确实可以解决知识蒸馏中的偏见问题,产生更准确和公平的推荐。

2.2 UnKD与介入教师模型训练方法的比较

上文中,解决问题方法还有介入教师模型训练,生成无偏倚的软标签。作者也将其与UnKD进行了对比,如下中的方法PD-CD、PD-HTD:

虽然在教师模型培训中利用PD可以提高不受欢迎商品的表现,然而这些改进并不像作者的UnKD那样显著,原因可能由于教师偏见的复杂性,这种偏见可能源于许多因素。

2.3 划分组数K的设定

越大的K意味着越细粒度的划分,每个组中的商品容易有更高的流行度相似度,蒸馏的无偏性更有可能被保持,但当K超过阈值时,随着K的进一步增大,性能变差,因为K再大一些,每一组的商品数量就会减少,导致一些商品排序关系的知识缺失。所以如下图实验,可以选定K=4。


03

总结

本文作者首先确定偏见的起源,它源于教师模型的偏见软标签,并在蒸馏过程中进一步传播和强化。为了纠正这一点,作者提出了一种无偏倚的教师竞争知识蒸馏(UnKD),提取受欢迎程度感知的排名知识来指导学生模型的学习。作者在三个真实数据集上的实验验证了UnKD在很大程度上优于最先进的技术,特别是对于不受欢迎的商品组。

进技术交流群请添加AINLP小助手微信(id: ainlp2)

请备注具体方向+所用到的相关技术点

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。




阅读至此了,分享、点赞、在看三选一吧🙏

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存