查看原文
其他

数据集 | 90w条中国上市公司高管数据

大邓 大邓和他的Python
2024-09-09

90w条中国上市公司高管简历,数据源-新浪财经,统计的日期范围1990-2021年。


相关论文

这里粘贴部分应用高管数据论文

- 何瑛,于文蕾,戴逸驰,王砚羽.高管职业经历与企业创新[J].管理世界,2019,35(11):174-192.
- 杨林,和欣,顾红芳.高管团队经验、动态能力与企业战略突变:管理自主权的调节效应[J].管理世界,2020,36(06):168-188+201+252.
- 周楷唐,麻志明,吴联生.高管学术经历与公司债务融资成本[J].经济研究,2017,52(07):169-183.
- 陆瑶,张叶青,黎波,赵浩宇.高管个人特征与公司业绩——基于机器学习的经验证据[J].管理科学学报,2020,23(02):120-140.
- 柳光强,孔高文.高管经管教育背景与企业内部薪酬差距[J].会计研究,2021,(03):110-121.
- 郑建明,孙诗璐,李金甜.高管文化背景与企业债务成本——基于劳模文化的视角[J].会计研究,2021,(03):137-145.

数据集字段

数据集的字段含,大多是从「个人简历」中计算衍生出来的。

- ID
- 姓名
- 证券代码
- 统计截止日期
- 个人简历
- 国籍
- 籍贯
- 籍贯所在地区代码
- 出生地
- 出生地所在地区代码
- 性别
- 年龄
- 毕业院校
- 学历  1=中专及中专以下;2=大专;3=本科;4=硕士研究生;5=博士研究生;6=其他(以其他形式公布的学历,如荣誉博士、函授等);7=MBA/EMBA
- 专业
- 职称
- 是否领取薪酬
- 报告期报酬总额
- 年末持股数
- 是否高管团队成员
- 是否董事会成员
- 是否独立董事
- 是否兼任董事长和CEO
- 是否监事
- 具体职务

读取数据

  • 数据文件  高管数据.xlsx
  • 强制某几个字段的数据类型
  • 将字段 「统计截止日期」 转化为 datetime 类型
import pandas as pd

# 导入数据,
df = pd.read_excel('高管数据.xlsx'
                   #保证这两个字段是字符串格式
                   converters={'证券代码': str, 
                               'ID': str})

#将字段「统计截止日期」 整理为datetime格式
df['统计截止日期'] = pd.to_datetime(df['统计截止日期'])
#显示前1条记录
df.head(1)

Run


df.columns

Run

    Index(['ID''姓名''证券代码''统计截止日期''个人简历''国籍''籍贯''籍贯所在地区代码''出生地',
           '出生地所在地区代码''性别''年龄''毕业院校''学历''专业''职称''是否领取薪酬''报告期报酬总额',
           '津贴''年末持股数''是否高管团队成员''是否董事会成员''是否独立董事''是否兼任董事长和CEO''是否监事',
           '具体职务'],
          dtype='object')

数据集记录数共

len(df)

Run

    900887

数据统计日期范围自 1990年12月10日 至 2021年7月19日

df['统计截止日期'].sort_values()

Run

    900886   1990-12-10
    900884   1990-12-10
    900883   1990-12-10
    900882   1990-12-10
    900881   1990-12-10
                ...    
    59734    2021-07-19
    59733    2021-07-19
    59731    2021-07-19
    59736    2021-07-19
    59742    2021-07-19
    Name: 统计截止日期, Length: 900887, dtype: datetime64[ns]

数据集字段 有

df.columns

Run

    Index(['ID''姓名''证券代码''统计截止日期''个人简历''国籍''籍贯''籍贯所在地区代码''出生地',
           '出生地所在地区代码''性别''年龄''毕业院校''学历''专业''职称''是否领取薪酬''报告期报酬总额',
           '津贴''年末持股数''是否高管团队成员''是否董事会成员''是否独立董事''是否兼任董事长和CEO''是否监事',
           '具体职务'],
          dtype='object')

截止统计日期时大于90岁的高管 记录(记录是可重复的)有

df[df['年龄']>90]


后续待分享

何瑛,于文蕾,戴逸驰,王砚羽.高管职业经历与企业创新[J].管理世界,2019,35(11):174-192.

摘要:管理的本质是一种实践,在某些情形下,阅历比简历更重要,丰富的职业经历有助于企业高管形成多元化的思维结构、广阔的管理视野、丰富的社会资源和过人的胆识,也是塑造复合型人才的重要路径。本文基于行为金融理论和高层梯队理论,手工搜集整理了2007~2016年中国沪深A股上市公司高管职业经历独特数据集,从职能部门、企业、行业、组织机构和地域类型五个维度构建了复合型职业经历的衡量指标——职业经历丰富度指数,对CEO职业经历与企业创新的影响因素和影响机理进行理论解释、数据分析和验证。研究结果表明:CEO职业经历越丰富,企业创新水平越高,其中跨企业经历对创新水平的影响最为显著,其次是跨行业经历和跨组织机构经历,跨职能部门经历和跨地域经历对企业创新水平的影响最小;影响因素方面,基于公司内外部治理的视角发现,市场化程度越低、企业融资约束程度越低时,CEO职业经历丰富度对企业创新水平的促进作用越明显,国有企业CEO职业经历丰富度对企业创新水平的促进作用更强,而股权制衡度对CEO职业经历丰富度与企业创新水平的调节作用不明显;影响机理方面,CEO复合型职业经历主要是通过丰富高管的社会网络资源以及增强高管的风险偏好倾向,从而提升企业的创新水平。本文的研究结论拓展了企业创新影响因素及高管职业经历经济后果领域的相关文献,将复合型人才的影响从国家宏观层面拓展到企业微观层面,为企业高层次人才的招聘和选拔提供新的证据支持。中提到高管的创新

高管,一般是有多个企业经历的, 如何将高管职业经历转化为可以计算和比较的 高管职业经历向量 呢?

后续有机会,大邓会使用该数据集 生成 高管职业经历向量 , 有了向量可以

  • 计算高管之间的相似度(向量余弦距离)
  • 企业高管团队异质性(向量距离)
  • ...

数据获取

转发集赞 30+ , 加微信 372335839, 备注【姓名-学校-专业-高管数据集】获取本数据集。



精选文章

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

支持开票 | Python实证指标构建与文本分析

推荐 | 社科(经管)文本分析快速指南

视频分享 | 文本分析在经管研究中的应用

转载 | 金融学文本大数据挖掘方法与研究进展

FinBERT | 金融文本BERT模型,可情感分析、识别ESG和FLS类型

训练&使用Glove语言模型, 可度量刻板印象等

从符号到嵌入:计算社会科学的两种文本表示

资料 | 量化历史学与经济学研究

长期征稿 | 欢迎各位前来投稿

17G数据集 | 深交所企业社会责任报告

70G数据集 | 上市公司定期报告数据集

27G数据集 | 使用Python对27G招股说明书进行文本分析

百度指数 | 使用qdata采集百度指数

Maigret库 | 查询某用户名在各平台网站的使用情况

MS | 使用网络算法识别创新的颠覆性与否

Asent库 | 英文文本数据情感分析

PNAS | 文本网络分析&文化桥梁Python代码实现

PNAS | 使用语义距离测量一个人的创新力(发散思维)得分

tomotopy | 速度最快的LDA主题模型

100min视频 | Python文本分析与会计

安装python包出现报错:Microsoft Visual 14.0 or greater is required. 怎么办?

如何正确读入文本数据不乱码(解决文本乱码问题)

继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存