词嵌入可测量不同群体对某概念的态度(偏见)

Original 大邓大邓和他的Python 2022-07-09

收录于合集

前几天刚刚分享了，

人类在留下语言、文字的过程中，也留下了自己的偏见、态度等主观认知信息（偏见、态度）。词嵌入做为一种词向量模型，可以隐含上下文的情景信息，态度及偏见很容易保留在词向量的某些维度中。通过词向量距离的测算，就可以间接测得不同群体 对 某概念(组织、群体、品牌、地域等)的态度偏见。

下面整理了几篇 集智俱乐部 分享过词嵌入解读文章，部分含视频讲解。文章末尾还有更多词嵌入的最新文献，感兴趣的同学也可以收藏。

Tips

pnas的数据挖掘的论文，大多都含有数据及代码。这里有几个python库，可以可视化刻板印象

whatlies库|可视化词向量

parallax https://github.com/uber-research/parallax

偏见

文化中的几何：词嵌入如何捕捉文化社会学的微妙关系

Kozlowski, A.C., Taddy, M. and Evans, J.A., 2019. The geometry of culture: Analyzing the meanings of class through word embeddings. American Sociological Review, 84(5), pp.905-949.

来自芝加哥大学和亚马逊的研究者，针对海量文本资料，将所有词向量分解为性别，阶级和种族三个维度，并通过将不同词向量在这三个维度上的投影来给出该词的性别、阶级和种族属性。本文是对这项工作的解读。

点击查看详细解读 https://mp.weixin.qq.com/s/vhtlIggfSp7GUUXNSocYmA

故事的形态可预期其成功

Toubia, O., Berger, J. and Eliashberg, J., 2021. How quantifying the shape of stories predicts their success. Proceedings of the National Academy of Sciences, 118(26).

通过NLP，分析了电影、电视剧及科研论文的叙事模式，与其成功之间的关系。发现不同类型的文章，由于大众的认知偏好，促成其成功的叙事模式是不同。作为计算社会学的一部分，该研究通过量化分析，确认了面对不同的叙事模式，存在普遍的认知偏好。

点击查看详细解读 https://mp.weixin.qq.com/s/Y0pDte4GeAAqoZhmP8B8WA

童话里都是骗人的？用词向量解析故事中的性别偏见

Xu H, Zhang Z, Wu L, Wang C_J. The Cinderella Complex: Word Embeddings Quantify Gender Stereotypes in Movies and Books. Available from https://arxiv.org/abs/1811.04599. 2019.06.
Caliskan A, Bryson JJ, Narayanan A. Semantics derived automatically from language corpora contain human-like biases. Science. 2017;356: 183–186.
Garg N, Schiebinger L, Jurafsky D, Zou J. Word embeddings quantify 100 years of gender and ethnic stereotypes . Proceedings of the National Academy of Sciences. 2018. pp. E3635–E3644. doi:10.1073/pnas.1720347115
Dowling C. The Cinderella Complex: Women’s Hidden Fear of Independence. 1982.

“男人是女人通往幸福的道路”——这种偏见是如何通过一个精心设计的故事创造出来的？灰姑娘式的叙事结构形成并强化了"灰姑娘情结"，即女性对独立的恐惧和被他人照顾的无意识欲望。"灰姑娘情结"在不同时期和不同文化中广泛存在，这提醒研究我们有必要通过教育、政策和其他方面创造新的叙述方式来与之作斗争。

研究者提出了计算机化的框架分析，通过描绘故事的形状来测量性别刻板印象。词嵌入技术提供了一个强大的替代情感词典的方法，首先，研究团队构建一个“高兴——不高兴”的情感轴，然后计算余弦相似性来得到每一个词的情感得分。

点击查看详细解读 https://mp.weixin.qq.com/s/jY_hobh589D9mEN2-IZKVA

词向量带你洞悉美国性别与种族歧视的100年历史演变

性别歧视、种族歧视都是存在了上百年的社会现象，这些现象在不同历史时期有怎样的发展变化呢？发表在PNAS这篇论文中，研究者用词向量的方法研究大量文本数据，挖掘出美国近一百年文化刻板印象的演化。

Garg, N., Schiebinger, L., Jurafsky, D. and Zou, J., 2018. Word embeddings quantify 100 years of gender and ethnic stereotypes. Proceedings of the National Academy of Sciences, 115(16), pp.E3635-E3644.

详细解读请看 https://mp.weixin.qq.com/s/VroknX42MBdckptv4tELJg

利用向量表征挖掘知识的创造和组织

词向量是自然语言处理中的一项基础性技术，通过词语之间的共同出现网络，可以在低维空间表征词汇间的语义相关性。4月23日发表在 Science Advences 的论文，通过论文引用网络，结合神经网络为不同的学科的科研期刊构建了连续的向量化嵌入表征，从中可以了解新知是如何被创造和组织的。

Peng, H., Ke, Q., Budak, C., Romero, D.M. and Ahn, Y.Y., 2021. Neural embeddings of scholarly periodicals reveal complex disciplinary organizations. Science Advances, 7(17), p.eabb9004.

点击查看详细解读 https://zhuanlan.zhihu.com/p/372087496

量化在线平台中的社会组织和政治两极分化

大量选择志同道合的人可能会分裂和极化网络社会，特别是在党派差异方面。通过利用大规模的聚合行为模式来量化在线社区在社会维度上的定位。应用 14 年来在 Reddit 上 10,000 个社区中发表的 51 亿条评论，我们衡量了宏观社区结构在年龄、性别和美国政治党派方面的组织方式。

检查政治内容，我们发现 Reddit 在 2016 年美国总统大选前后经历了一次重大的两极分化事件。然而，与传统观念相反，个人层面的两极分化是罕见的。2016 年的系统级转变主要是由新用户的到来推动的。Reddit 上的政治两极分化与平台上的先前活动无关，而是在时间上与外部事件保持一致。

研究还观察到明显的意识形态不对称，2016 年两极分化的急剧增加完全归因于右翼活动的变化。这种方法广泛适用于在线互动的研究，我们的研究结果对在线平台的设计、理解在线行为的社会背景以及量化在线两极分化的动态和机制具有重要意义。

Waller, I. and Anderson, A., 2021. Quantifying social organization and political polarization in online platforms. Nature, 600(7888), pp.264-268.

点击查看详细解读 https://www.bilibili.com/video/av422602096

精选文章

Python语法入门(含视频代码)
读完本文你就了解什么是文本分析
综述:文本分析在市场营销研究中的应用
大数据时代下社会科学研究方法的拓展—基于词嵌入技术的文本分析的应用
PyPlutchik库 | 可视化文本的情绪轮(情绪指纹)
计算文本的语言具体性 | 以JCR2021论文为例
使用文本相似度可以识别变化的时间点
PNAS | 文本网络分析&文化桥梁Python代码实现
tomotopy | 速度最快的LDA主题模型
量化历史语言学-贝叶斯语言谱系分析
Python与文化分析入门
在会计研究中使用Python进行文本分析
文本分析方法在《管理世界》（2021.5）中的应用
doccano|为机器学习建模做数据标注
量化历史语言学-贝叶斯语言谱系分析

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

词嵌入可测量不同群体对某概念的态度(偏见)

Tips

偏见

文化中的几何：词嵌入如何捕捉文化社会学的微妙关系

故事的形态可预期其成功

童话里都是骗人的？用词向量解析故事中的性别偏见

词向量带你洞悉美国性别与种族歧视的100年历史演变

利用向量表征挖掘知识的创造和组织

量化在线平台中的社会组织和政治两极分化

更多文献

精选文章

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

词嵌入可测量不同群体对某概念的态度(偏见)

Tips

偏见

文化中的几何：词嵌入如何捕捉文化社会学的微妙关系

故事的形态可预期其成功

童话里都是骗人的？用词向量解析故事中的性别偏见

词向量带你洞悉美国性别与种族歧视的100年历史演变

利用向量表征挖掘知识的创造和组织

量化在线平台中的社会组织和政治两极分化

更多文献

精选文章

您可能也对以下帖子感兴趣