查看原文
其他

数据集 | 企业家Entrepreneur杂志数据集(1996 ~ 2024)

大邓 大邓和他的Python
2024-09-10

Tips: 公众号推送后内容只能更改一次,且只能改20字符。如果内容出问题,或者想更新内容, 只能重复推送。为了更好的阅读体验,建议阅读本文博客版, 链接地址
https://textdata.cn/blog/2024-07-12-entrepreneur-dataset/

一、Enterpreneur概况

数据集名称: 企业家杂志
数据来源: https://www.entrepreneur.com/
覆盖日期: 1996-01-01 ~ 2024-06-28
所含字段:  date, title, content, link
记录条数: 95813
文件格式: csv
文件大小: 1418 M

科研用途; 如有问题, 加微信 372335839, 备注「姓名-学校-专业-entrepreneur」。

二、查看数据

2.1 读取数据

import pandas as pd

df = pd.read_csv('Entrepreneur.csv')
df


2.2 覆盖日期

df['date'] = pd.to_datetime(df['date'], errors='coerce')

print('起: ', df['date'].min().strftime('%Y-%m-%d'))
print('止: ', df['date'].max().strftime('%Y-%m-%d'))

Run

起:  1996-01-01
止:  2024-06-28

2.3 所含字段

for col in df.columns:
    print(col)

Run

date #日期
title #标题
content #新闻内容
link  #新闻链接

2.4 发文量统计

企业家杂志,按照月度发文量进行统计。

month_volumes = []
for date, month_df in df.groupby(pd.Grouper(key='date', freq='M')):
    month_volumes.append((date, len(month_df)))

data = pd.DataFrame(months)
data.columns = ['date''count']
data

from plotnine import *
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties

#文泉驿微米黑.ttf位于代码同文件夹
font_prop = FontProperties(fname='文泉驿微米黑.ttf'

(
    ggplot(data,  aes(x='date', y='count'))
    +geom_point()
    +geom_line()
    +theme(figure_size=(106),
           text = element_text(family = font_prop.get_name()), 
           plot_title = element_text(family = font_prop.get_name(), size=14)
          )
    +labs(title='企业家Entrepreneur杂志(1996.1-2024.6.28)',
          x = '月度'
          y = '发文量')
)


注意

如Excel打开csv乱码, 请百度搜「在 Excel 中正确打开 CSV UTF-8 文件」



三、数据用途

企业家杂志数据集, 最相关的领域是与企业家相关的创新创业, 通过文本研究全球的企业家创新创业。

当然也可将该数据集看做新闻数据集, 提取的指标提取丰富的指标,包括但不限于 经济政策不确定性指数环境政策不确定性媒体关注度指数文本相似度情感分析。此外, 可训练词向量,开发新的概念词典。数据带时间, 参照前面指标, 依主体、日期、指标进行计算, 可构造面板数据,构建新的指标指数。因此在经济学、管理学、新闻传播学、公共管理、社会学等领域均有较高的研究价值。

相关参考文献

[1]洪永淼,刘俸奇,薛涧坡.政府与市场心理因素的经济影响及其测度[J].管理世界,2023,39(03):30-51.
[2]刘景江,郑畅然,洪永淼.机器学习如何赋能管理学研究?——国内外前沿综述和未来展望[J].管理世界,2023,39(09):191-216.
[3]张一帆,林建浩,樊嘉诚.新闻文本大数据与消费增速实时预测——基于叙事经济学的视角[J].金融研究,2023,(05):152-169.
[4]Huang, Yun, and Paul Luk. "Measuring economic policy uncertainty in China." China Economic Review 59 (2020): 101367
[5]欧阳资生,陈世丽,杨希特,刘凤根,周学伟.经济政策不确定性、网络舆情与金融机构系统性风险[J].管理科学学报,2023,26(04):62-86.
[6]逯东,宋昕倍.媒体报道、上市公司年报可读性与融资约束[J].管理科学学报,2021,24(12):45-61.
[7]彭涛,黄福广,孙凌霞.经济政策不确定性与风险承担:基于风险投资的证据[J].管理科学学报,2021,24(03):98-114.
[8]庞锐.采纳与内化:多重制度压力如何影响河长制创新扩散——基于省级政府的定向配对事件史分析[J].公共管理学报,2023,20(02):25-37+165-166.

四、相关内容


Tips: 公众号推送后内容只能更改一次,且只能改20字符。如果内容出问题,或者想更新内容, 只能重复推送。为了更好的阅读体验,建议阅读本文博客版, 链接地址
https://textdata.cn/blog/2024-07-12-entrepreneur-dataset/


精选内容

LIST | 社科(经管)可用数据集列表
推荐 | 文本分析库cntext2.x使用手册
LIST | 文本分析代码列表
LIST | 社科(经管)文本挖掘文献列表
新闻数据集 | 含 人民日报/光明日报/参考消息/经济日报 等 120 家媒体(2024.06)
数据集(中英) | ChinaDaily新闻数据集(2008 ~ 2024)
数据集(英文)| USA Today新闻数据集(2012~2024)
数据集 | 2006年-2023年A股企业社会责任报告/环境报告书/可持续发展报告
代码 | 使用本地大模型从文本中提取结构化信息
实验 | 使用本地大模型DIY制作单词书教案PDF
管理世界2024 | 使用管理层讨论与分析测量「企业人工智能指标」
代码 | 使用 MD&A文本测量「企业不确定性感知FEPU」
文献&代码 | 使用Python计算语义品牌评分(Semantic Brand Score)
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用「新闻数据集」计算 「经济政策不确定性」指数
代码 | 使用「新闻数据」生成概念词频「面板数据」
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用本地大模型从文本中提取结构化信息
继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存