查看原文
其他

数据集(英文)| USA Today新闻数据集(2012~2024)

大邓 大邓和他的Python
2024-09-10

Tips: 公众号推送后内容只能更改一次,且只能改20字符。如果内容出问题,或者想更新内容, 只能重复推送。为了更好的阅读体验,建议阅读本文博客版, 链接地址

https://textdata.cn/blog/2024-06-22-usa_today_daily-news-dataset/

今日分享一个数据集「今日美国USA Today」,国内任何人都可正常访问



一、USA Today数据集

1.1 概况

数据集:  USA Today
数据源:  https://www.usatoday.com/
记录数:  497429
覆盖日期: 2012-09-20 ~2024-06-18 
数据格式: CSV
数据体积: 3033 M
所含字段: date、title、content、author_link、publisher、link


1.2 数据用途

可提取丰富的指标,包括但不限于 经济政策不确定性指数 、环境政策不确定性媒体关注度指数文本相似度情感分析。此外, 可训练词向量,开发新的概念词典。数据带时间, 参照前面指标, 依主体、日期、指标进行计算, 可构造面板数据,构建新的指标指数。因此在经济学、管理学、新闻传播学、公共管理、社会学等领域均有较高的研究价值。

相关参考文献

[1]洪永淼,刘俸奇,薛涧坡.政府与市场心理因素的经济影响及其测度[J].管理世界,2023,39(03):30-51.
[2]刘景江,郑畅然,洪永淼.机器学习如何赋能管理学研究?——国内外前沿综述和未来展望[J].管理世界,2023,39(09):191-216.
[3]张一帆,林建浩,樊嘉诚.新闻文本大数据与消费增速实时预测——基于叙事经济学的视角[J].金融研究,2023,(05):152-169.
[4]Huang, Yun, and Paul Luk. "Measuring economic policy uncertainty in China." China Economic Review 59 (2020): 101367
[5]欧阳资生,陈世丽,杨希特,刘凤根,周学伟.经济政策不确定性、网络舆情与金融机构系统性风险[J].管理科学学报,2023,26(04):62-86.
[6]逯东,宋昕倍.媒体报道、上市公司年报可读性与融资约束[J].管理科学学报,2021,24(12):45-61.
[7]彭涛,黄福广,孙凌霞.经济政策不确定性与风险承担:基于风险投资的证据[J].管理科学学报,2021,24(03):98-114.
[8]庞锐.采纳与内化:多重制度压力如何影响河长制创新扩散——基于省级政府的定向配对事件史分析[J].公共管理学报,2023,20(02):25-37+165-166.

1.3 获取USA Today数据

  • USA Today数据集 500 元,科研用途, 支持开票。
  • 支持开票,需要的请加微信372335839,备注【姓名-学校-专业-news】



二、查看数据

2.1 读取数据

import pandas as pd

df = pd.read_csv('USA_Today.csv.gz', compression='gzip')
df.head()


2.2 所含字段

df.columns

Run

Index(['date''title''content''author_link''publisher''link'], dtype='object')

2.3 查看记录数

print('记录数:', len(df))

Run

记录数:497429

2.4 覆盖日期

df['date'] = pd.to_datetime(df['date'])

print('起:  ', df['date'].min())
print('止:  ', df['date'].max())

Run

起:   2012-09-20 19:06:00
止:   2024-06-18 19:56:00

2.5 数据体积

size = sum(df.memory_usage(deep=True)/1024/1024)
print(f'数据体积 {size:.2f} M')

Run

数据体积 3033.59 M


三、获取USA Today数据

  • USA Today数据集 500 元,支持开票。
  • 支持开票,需要的请加微信372335839,备注【姓名-学校-专业-news】

数据是虚拟产品,一经售出,不再退还!


更多数据集,请查看 LIST | 可供社科(经管)领域使用的数据集汇总



四、「待采集-海外媒体清单」

计划采集如下媒体数据, 整理成一个「海外媒体数据集」。


## 知名通讯社
- [] 法新社(法国)   https://www.afp.com/en
- [] 美联社(美国)   https://apnews.com/
- [] 塔斯社(俄罗斯)  https://tass.com/

## 其他新闻媒体
- [] 福克斯(美国)    https://www.foxnews.com/
- [] CNN(美国)      https://www.cnn.com/
- [] ABC新闻(美国)  https://abcnews.go.com/
- [x] 今日美国      https://www.usatoday.com/
- [x] CBS  https://www.cbsnews.com/


## 各领域网站
- [x] https://www.entrepreneur.com/latest
- [] https://www.bloomberg.com/
- [] https://www.morningbrew.com/daily
- [] https://www.digitaljournal.com/
- [] https://www.businessinsider.com/



## 国外中文
- [] 联合早报(新加坡)  https://www.zaobao.com/

虽然国内都可正常访问,但访问特慢,可能清单中大多数都会面临失败。


Tips: 公众号推送后内容只能更改一次,且只能改20字符。如果内容出问题,或者想更新内容, 只能重复推送。为了更好的阅读体验,建议阅读本文博客版, 链接地址
https://textdata.cn/blog/2024-06-22-usa_today_daily-news-dataset/

精选内容

LIST | 社科(经管)可用数据集列表
推荐 | 文本分析库cntext2.x使用手册
LIST | 文本分析代码列表
LIST | 社科(经管)文本挖掘文献列表
代码 | 使用 MD&A文本测量「企业不确定性感知FEPU」
中国工业经济(更新) | MD&A信息含量指标构建代码实现
管理科学学报 | 使用「软余弦相似度」测量业绩说明会「答非所问程度
文献&代码 | 使用Python计算语义品牌评分(Semantic Brand Score)
数据集(更新) | 2001-2022年A股上市公司年报&管理层讨论与分析
数据集(更新) | 372w政府采购合同公告明细数据(2024.03)
数据集  | 人民网政府留言板原始文本(2011-2023.12)
数据集 | 含 人民日报/光明日报/参考消息/经济日报 等 60+ 家媒体(更新至2024.05)
数据集 | 30w播客(Podcast)的560w条评论数据(2005-2023)
数据集 | 30w条「问政湖南」留言&回复数据(2010-2024)
数据集 | 1102w条纽约时报(1920-2020)
可视化 | 人民日报语料反映七十年文化演变
数据集 | 3571万条专利申请数据集(1985-2022年)
数据集 |  专利转让数据集(1985-2021)
数据集 |  3394w条豆瓣书评数据集
数据集 | 豆瓣电影影评数据集
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用「新闻数据集」计算 「经济政策不确定性」指数
数据集 | 国省市三级gov工作报告文本
代码 | 使用「新闻数据」生成概念词频「面板数据」
代码 | 使用 3571w 专利申请数据集构造面板数据
修改于
继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存