查看原文
其他

重磅!「自然语言处理(NLP)」一千多万公司企业注册数据集

ShuYini AINLPer 2023-07-10

喜欢我们,点击上方AINLPer,关注一下,极品干货即刻送达!


忙碌的一天,大家晚安~~

引言

    最近在做一个关于公司企业名字匹配的项目,简单来说就是:根据一个人说的话,在识别其意图的基础上,尽可能收集这个人所说出的实体,这个实体就是公司企业名字,所以需要公司企业名字的数据集。费劲周折,终于找到了一份工商企业注册信息的数据集。可能是涉及到国内企业信息的原因,现在网上搜索到的链接打开基本都是404,个人觉得这份数据集还挺珍贵的,独乐不如众乐,给大家分享一下~

    最后,帮作者点个吧,谢谢~~


正文开始



1First Blood

数据集介绍

    中国大陆 31 个省份 1978 年至 2019 年一千多万工商企业注册信息,包含企业名称、注册地址、统一社会信用代码、地区、注册日期、经营范围、法人代表、注册资金、企业类型。数据集部分截图如下:


数据集格式

    当前只有CSV 文件格式的数据(编码为 UTF-8), 如果确实需要 JSON 、XLS等其它格式,可以自己写个Python处理一下,如果写脚本有困难直接留下邮箱,作者抽时间处理好发给你们。Tip:通过excel打开可能显示是乱码的,可以通过记事本打开更改一下编码(ANSI)然后保存,打开就是正常的了。


数据使用须知

    本数据因涉及到国内所有公司的信息,请慎重使用!请慎重使用!请慎重使用!!重要的事情说三遍!!


数据获取方式

    直接回复:公司企业数据集 


2往期回顾 「自然语言处理(NLP)」自然语言生成(NLG)论文速递(一) 「自然语言处理(NLP)」自然语言生成(NLG)论文速递(二)   (含源码)「自然语言处理(NLP)」Question Answering(QA)论文整理(一)
 (含源码!)「自然语言处理(NLP)」社交媒体舆论防控(RP-DNN)   内含源码!「自然语言处理(NLP)」广告点击量率预测

长按识别下方二维码,关注我们吧(づ ̄3 ̄)❤~

资料整理实属不易,点个【在看】再走吧~~



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存