认知的测量 | 向量距离vs语义投影

male_concept = ['male', 'man', 'he', 'him']
female_concept = ['female', 'woman', 'she', 'her']
software_engineer_concept  = ['engineer',  'programming',  'software']
d1 = distance(male_concept,  software_engineer_concept)
d2 = distance(female_concept,  software_engineer_concept)

如果d1-d2<0，说明在语义空间中，software_engineer_concept更接近male_concept，更远离female_concept。

换言之，在该语料中，人们对软件工程师这一类工作，对女性存在刻板印象(偏见)。

下载glove_w2v.6B.100d.txt链接: https://pan.baidu.com/s/1MMfQ7M0YCzL9Klp4zrlHBw 提取码: 72l0

import cntext as ct

#Note: this is a word2vec format model
tm = ct.Text2Mind(w2v_model_path='glove_w2v.6B.100d.txt')

engineer = ['program', 'software', 'computer']
mans =  ["man", "he", "him"]
womans = ["woman", "she", "her"]

#在语义空间中，工程师更接近于男人，而不是女人。
#in semantic space, engineer is closer to man, other than woman.
tm.sematic_distance(words=engineer, 
                    c_words1=mans, 
                    c_words2=womans)

Run

-0.38

-0.38 意味着工程师更接近于男人，而不是女人。

tm.sematic_projection(words, c_words1, c_words2)

语义投影，根据两组反义词c_words1, c_words2构建一个概念(认知)向量, words中的每个词向量在概念向量中投影，即可得到认知信息。

分值越大，word越位于c_words2一侧。

下图是语义投影示例图，本文算法和图片均来自 "Grand, G., Blank, I.A., Pereira, F. and Fedorenko, E., 2022. Semantic projection recovers rich human knowledge of multiple object features from word embeddings. Nature Human Behaviour, pp.1-13."

例如，人类的语言中，存在尺寸、性别、年龄、政治、速度、财富等不同的概念。每个概念可以由两组反义词确定概念的向量方向。

以尺寸为例，动物在人类认知中可能存在体积尺寸大小差异。

animals = ['mouse', 'cat', 'horse',  'pig', 'whale']
smalls = ["small", "little", "tiny"]
bigs = ["large", "big", "huge"]

# In size conception, mouse is smallest, horse is biggest.
# 在大小概念上，老鼠最小，马是最大的。
tm.sematic_projection(words=animals, 
                      c_words1=smalls, 
                      c_words2=bigs)

Run

[('mouse', -1.68),
 ('cat', -0.92),
 ('pig', -0.46),
 ('whale', -0.24),
 ('horse', 0.4)]

在这几个动物尺寸的感知上，人类觉得老鼠体型是最小，马的体型是最大。

精选文章

从符号到嵌入：计算社会科学的两种文本表示
推荐 | 社科(经管)文本分析快速指南
视频专栏课 | Python网络爬虫与文本分析
案例实战 | 企业信息数据采集
使用文本相似度可以识别变化的时间点
PNAS | 文本网络分析&文化桥梁Python代码实现
tomotopy | 速度最快的LDA主题模型
在会计研究中使用Python进行文本分析
文本分析方法在《管理世界》（2021.5）中的应用
SciencePlots | 科研样式绘图库
Wow~70G上市公司定期报告数据集
YelpDaset: 酒店管理类数据集10+G
极简浏览器启动页StartPage分享
doccano|为机器学习建模做数据标注
使用WeasyPrint自动生成pdf报告文件
推荐 | 社科(经管)文本分析快速指南
100min视频 | Python文本分析与会计
Python数据挖掘2022.05.16工作坊开始报名啦

一把短刀，怎么就让他连捅18人？！

这次我怀疑邱成桐已经“学阀化”了

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

向杨大市长道歉

认知的测量 | 向量距离vs语义投影

近期活动

2022年5月16号 Python数据挖掘2022五月直播开始报名啦

tm.sematic_distance(words, c_words1, c_words2)

tm.sematic_projection(words, c_words1, c_words2)

精选文章

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

这次我怀疑邱成桐已经“学阀化”了

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

向杨大市长道歉

生成图片，分享到微信朋友圈

认知的测量 | 向量距离vs语义投影

近期活动

2022年5月16号 Python数据挖掘2022五月直播开始报名啦

tm.sematic_distance(words, c_words1, c_words2)

tm.sematic_projection(words, c_words1, c_words2)

精选文章

您可能也对以下帖子感兴趣