大邓和他的Python

其他

数据集 | 国、省、市三级政府工作报告文本(1954-2024)

ndf['env_ratio'])plt.title('国级报告中“环保概念词”提及频率折线图(1954-2024)')plt.show()大家应该都学过正泰分布中,
8月1日 下午 5:10
其他

数据集 | 聚焦美股企业社会责任CSR Wire网站新闻数据集(1999-2024)

链接地址https://textdata.cn/blog/2024-07-19-csrwise-dataset/精选内容LIST
7月19日 下午 5:51
其他

LIST | 社科(经管)文本挖掘文献汇总

内容聚焦于Python文本分析在经管、社科等领域的应用。营销会计学经济学心理学社会学...读几篇文章能加深对各领域文本分析方法应用的理解。管理学读完本文你就了解什么是文本分析视频2022
7月18日 下午 9:42
其他

数据集(英文) | CBS News新闻数据集(1998 ~ 2024)

链接地址https://textdata.cn/blog/2024-07-13-cbs-news-dataset/精选内容LIST
7月14日 下午 12:34
其他

数据集 | 企业家Entrepreneur杂志数据集(1996 ~ 2024)

链接地址https://textdata.cn/blog/2024-07-12-entrepreneur-dataset/一、Enterpreneur概况数据集名称:
7月13日 上午 8:03
其他

数据集(中英) | ChinaDaily新闻数据集(2008 ~ 2024)

数据集中大多为英文新闻,也含少量中文内容。中英文新闻的记录数df['lang'].value_counts()Runlangenglish
7月12日 上午 11:57
其他

实验 | 使用本地大模型DIY制作单词书教案PDF

链接地址https://textdata.cn/blog/2024-07-10-using-large-language-model-to-build-diy-dictionary/精选内容LIST
7月11日 上午 12:01
其他

管理世界2024 | 使用管理层讨论与分析测量「企业人工智能指标」

三个字段2000-2023年A股上市公司基本信息上市公司基本信息2000-2023.csv含Symbol、FullName、ShortName、IndustryName、EndDate等
7月10日 下午 4:22
其他

数据集 | 2006年-2023年A股企业社会责任报告/环境报告书/可持续发展报告

近年来,企业社会责任(csr)已成为全球学术界研究的热点,一、CSR相关论文[1]解学梅,朱琪玮.企业绿色创新实践如何破解“和谐共生”难题?[J].管理世界,2021,37(01):128-149+9.[2]谢红军,吕雪.负责任的国际投资:ESG与中国OFDI[J].经济研究,2022,57(03):83-99.[3]Schaefer,
7月9日 上午 9:01
其他

新闻数据集 | 含 人民日报/光明日报/参考消息/经济日报 等 120 家媒体(2024.06)

链接地址https://textdata.cn/blog/2023-12-14-daily-news-dataset/一、「中文新闻报刊数据集」概况报纸(数字版)数据集,媒体源
7月8日 上午 9:58
其他

Python实证指标构建与文本分析

概览为何要学Python?在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:网络爬虫技术
7月1日 下午 12:39
其他

代码 | 使用本地大模型从文本中提取结构化信息

哈尔滨所以然信息技术有限公司\n密\n码\n区030898/5*/0*440/63+79*08\n纳税人识别号:91230109MABT7KBC4M
7月1日 下午 12:39
其他

数据集(英文)| USA Today新闻数据集(2012~2024)

链接地址https://textdata.cn/blog/2024-06-22-usa_today_daily-news-dataset/今日分享一个数据集「今日美国USA
6月28日 下午 9:08
自由知乎 自由微博
其他

Python实证指标构建与文本分析

概览为何要学Python?在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:网络爬虫技术
6月3日 下午 1:36
其他

新闻数据集 | 1102w条纽约时报(1920-2020)

链接地址https://textdata.cn/blog/2024-06-01-new-york-times-article-from-1920-2020/一、数据集概况媒体名称:
6月2日 上午 9:04
其他

Python实证指标构建与文本分析

概览为何要学Python?在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:网络爬虫技术
5月22日 下午 1:36
其他

Python实证指标构建与文本分析

概览为何要学Python?在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:网络爬虫技术
5月16日 下午 2:07
其他

cntext2.x | 新增读取pdf/docx| 提取MD&A | 文本可视化等功能

链接地址https://textdata.cn/blog/2024-05-14-add-readpdf-readdocx-lexical-dispersion-plot/一、cntext1.1
5月14日 上午 10:19
其他

数据集(更新) | 2001-2023年A股上市公司年报&管理层讨论与分析

链接地址https://textdata.cn/blog/2023-03-23-china-a-share-market-dataset-mda-from-01-to-21/精选内容LIST
5月12日 上午 7:37
其他

数据集(更新) | 2001-2023年A股上市公司年报&管理层讨论与分析

链接地址https://textdata.cn/blog/2023-03-23-china-a-share-market-dataset-mda-from-01-to-21/精选内容LIST
5月7日 下午 11:24
其他

Python实证指标构建与文本分析

概览为何要学Python?在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:网络爬虫技术
5月6日 下午 9:37
其他

金融研究 | 使用Python测量关键审计事项的「信息含量」

链接地址https://textdata.cn/blog/2023-01-13-information-content-of-critical-audit/今日分享「信息含量」的第二种算法,
5月1日 下午 6:12
其他

管理世界2024 | 使用管理层讨论与分析测量「企业人工智能指标」

三个字段2000-2022年A股上市公司基本信息上市公司基本信息2000-2022.csv含Symbol、FullName、ShortName、IndustryName、EndDate等
4月29日 下午 4:36
其他

推荐 | 文本分析库cntext2.x使用手册

ct.read_yaml_dict('en_valence_Concreteness.yaml')['Dictionary']concreteness_dictRun{'roadsweeper':
4月28日 上午 10:17
其他

代码 | 使用 MD&A文本测量「企业不确定性感知FEPU」

链接地址https://textdata.cn/blog/2024-04-25-firm-economic-policy-uncertainty/本文使用的缩写EPU
4月26日 上午 8:00
其他

管理世界 | 使用md&a数据中计算 「企业融资约束指标」

这里假装我们检查完了,没什么问题。四、构建融资约束指标前面的融资约束样本识别,只是识别出融资约束是否存在,信息的颗粒度比较粗糙。这篇论文使用文本相似度算法,构建了每家企业的融资约束指标。本文同样参照
4月25日 上午 6:22
其他

中国工业经济(更新) | MD&A信息含量指标构建代码实现

的表述。可以将与行业其他公司或其他行业的公司重复或相似的信息定义为不具有信息含量的内容,同时将不同的信息定义为真正具有信息含量的内容,简称为信息含量。孟庆斌,
4月24日 下午 1:54
其他

tqdm库 | Python中实现进度条的几种方式

实现Python代码中显示运行进度,有如下几种场景tqdm(iterable)tqdm.notebooktqdm.pandas其他一、tqdm(iterable)tqdm是
4月23日 上午 8:00
其他

管理世界(更新) | 使用「经营讨论与分析」测量「企业数字化」

ct.read_yaml_dict('zh_common_Digitalization.yaml')print(Digitalization_Infos)Run{'Name':
4月22日 上午 8:15
其他

数据集(更新) | 2001-2022年A股上市公司年报&管理层讨论与分析

compression='gzip')mda_df.head()len(mda_df)Run55439上市公司总数mda_df.code.nunique()Run5355四、获取数据数据集
4月20日 下午 8:04
其他

数据集 | 3394w条豆瓣书评数据集

pd.to_datetime(df['date'])print(df['date'].min())print(df['date'].max())Run2005-06-12
4月18日 上午 8:01
其他

文献&代码 | 使用Python计算语义品牌评分(Semantic Brand Score)

如果研究景点品牌的重要性,可以从消费者或其他品牌利益相关者通常出现的地方(例如旅游论坛)收集他们的发表的信息。这样做的优点是可以减少因使用问卷而引起的偏见,因为受访者知道他们正在被观察。SBS
4月17日 上午 8:00
其他

Python实证指标构建与文本分析

概览为何要学Python?在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:网络爬虫技术
4月14日 下午 3:26
其他

数据集(更新) | 372w政府采购合同公告明细数据(2024.03)

bool#AI相关公告的数量df['合同名称'].fillna('').str.contains('人工智能|自然语言处理|自动驾驶|AI|ai').sum()Run1323#显示匹配到的与
4月11日 上午 11:54
其他

数据集 | 众筹金融投资平台kiva借贷数据

然后向平台发出这些资料以请求帮助。而平台则通过众筹的方式为这些项目筹集贷款资金,投资者则可以以个人或团队的形式进行投资。二、研究主题亲社会行为心理(Pro-Social
4月10日 下午 9:17
其他

Python实证指标构建与文本分析

概览为何要学Python?在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:网络爬虫技术
4月9日 下午 11:50
其他

pandas技巧 | DataFrame的四则运算

10#df.div(10)二、数组df与数组(列表、series、字典、dataframe)等进行运算dfdf有两列,
3月29日 下午 12:34
其他

数据集 | 2006年-2022年企业社会责任报告

近年来,企业社会责任(csr)已成为全球学术界研究的热点,一、CSR相关论文[1]解学梅,朱琪玮.企业绿色创新实践如何破解“和谐共生”难题?[J].管理世界,2021,37(01):128-149+9.[2]谢红军,吕雪.负责任的国际投资:ESG与中国OFDI[J].经济研究,2022,57(03):83-99.[3]Schaefer,
3月6日 下午 4:10
其他

Python实证指标构建与文本分析

概览为何要学Python?在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:网络爬虫技术
3月3日 上午 10:45
其他

ANCW | 4030词的中文情感词典(效价、唤醒度、主导度、具体性)

个与中文翻译一致的单词。为了确保每个翻译不重复,研究在中文翻译后标记了原始英文单词或该单词的词性。最终获得了英语四级英语单词大纲的翻译版,包含4030个中文单词。我们将
2月27日 下午 10:53
其他

Python实证指标构建与文本分析

概览为何要学Python?在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:网络爬虫技术
2月26日 下午 12:42
其他

使用 Langchain-Chatchat 搭建本地知识库问答系统

启动界面示例如果正常启动,你将能看到以下界面三、外包如果电脑显存大于12G,不差钱但缺时间,可以在某鱼搜「langchain-chatchat」,配置费用大概100-200元。精选内容LIST
2月1日 上午 8:02
其他

LIST | 文本分析代码列表

词移图分辨两文本用词风格差异五、数据标注&机器学习Label-Studio|多媒体数据标注工具doccano|为机器学习建模做数据标注causalinference库
1月31日 下午 6:11
其他

LIST | 社科(经管)文本挖掘文献汇总

内容聚焦于Python文本分析在经管、社科等领域的应用。营销会计学经济学心理学社会学...读几篇文章能加深对各领域文本分析方法应用的理解。管理学读完本文你就了解什么是文本分析视频2022
1月31日 下午 6:11
其他

Python实证指标构建与文本分析

概览为何要学Python?在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:网络爬虫技术
1月31日 下午 6:11
其他

Python实证指标构建与文本分析

概览为何要学Python?在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:网络爬虫技术
1月24日 下午 3:50
其他

可视化 | 使用 umap 对 200 维词向量的进行降维和可视化

matplotlib_inlinematplotlib_inline.backend_inline.set_matplotlib_formats('png',
1月24日 下午 3:50
其他

opencc | 中文简体、繁体转换库

'简体汉字'cc.convert(text)Run'簡體漢字'精选内容LIST
1月23日 上午 9:56
其他

可视化 | 使用 DataMapPlot 绘制数据地图

matplotlib_inlinematplotlib_inline.backend_inline.set_matplotlib_formats('png',
1月22日 上午 8:01
其他

数据集 | 港股年报文本数据集(2007 ~ 2023)

read_pdf('港股年报中文PDF/09990_2022_祖龍娛樂_2022年度報告_24-04-2023.PDF')text[:500]Run'2022\n2022\n年\n報\nANNUAL
1月21日 下午 7:31