其他
重磅!「自然语言处理(NLP)」一千多万公司企业注册数据集
喜欢我们,点击上方AINLPer,关注一下,极品干货即刻送达!
引言
最近在做一个关于公司企业名字匹配的项目,简单来说就是:根据一个人说的话,在识别其意图的基础上,尽可能收集这个人所说出的实体,这个实体就是公司企业名字,所以需要公司企业名字的数据集。费劲周折,终于找到了一份工商企业注册信息的数据集。可能是涉及到国内企业信息的原因,现在网上搜索到的链接打开基本都是404,个人觉得这份数据集还挺珍贵的,独乐不如众乐,给大家分享一下~
最后,帮作者点个在看吧,谢谢~~
正文开始
1First Blood
数据集介绍
中国大陆 31 个省份 1978 年至 2019 年一千多万工商企业注册信息,包含企业名称、注册地址、统一社会信用代码、地区、注册日期、经营范围、法人代表、注册资金、企业类型。数据集部分截图如下:
数据集格式
当前只有CSV 文件格式的数据(编码为 UTF-8), 如果确实需要 JSON 、XLS等其它格式,可以自己写个Python处理一下,如果写脚本有困难直接留下邮箱,作者抽时间处理好发给你们。Tip:通过excel打开可能显示是乱码的,可以通过记事本打开更改一下编码(ANSI)然后保存,打开就是正常的了。
数据使用须知
本数据因涉及到国内所有公司的信息,请慎重使用!请慎重使用!请慎重使用!!重要的事情说三遍!!
数据获取方式
直接回复:公司企业数据集
(含源码!)「自然语言处理(NLP)」社交媒体舆论防控(RP-DNN) 内含源码!「自然语言处理(NLP)」广告点击量率预测
长按识别下方二维码,关注我们吧(づ ̄3 ̄)❤~
资料整理实属不易,点个【在看】再走吧~~