爬虫俱乐部2020第一期Stata编程训练营开始报名啦！

Original 爬虫俱乐部 Stata and Python数据分析 2022-03-15

爬虫俱乐部

2020第一期Stata编程训练营

报名啦！

武汉字符串数据科技有限公司将于2020年1月5日至11日在湖北武汉举行为期一周的Stata编程技术定制培训，此次采取初级班和高级班分批次培训。课程通过案例教学模式，旨在帮助大家在短期内掌握Stata软件编程、金融计量知识和实证分析方法，使大家熟悉Stata核心的爬虫技术，以及Stata与其他软件交互的高端技术。

初级班的时间为2020年1月5日到7日，主要是为了让学员掌握Stata数据分析技巧，并能独立撰写相关的程序。涉及内容包括多种数据格式的读取和输出、数据的合并、实证结果的输出以及爬虫俱乐部编写的命令介绍等。

高级班的时间为2020年1月9日到11日，主要是为了让学员掌握Stata软件进阶操作，涉及内容包括正则表达式、网络爬虫技巧、文本分析等技术。

课程全部采用最新版Stata16软件进行教学，课程通过案例教学模式，旨在帮助大家在短期内掌握Stata的基本命令、编程、数据处理以及结果输出等技术，同时针对最新版Stata中的实用新功能也会做出详细介绍，包括框架功能（frame:读入多个数据集）、Python接口的调用等等。专题式的讲解使你能在短时间内掌握Stata的精髓，精选的实例和详实的配套资料能让你在课后快速拓展所学，并能够编写一些实用的Stata程序，为进一步学习和科研打下扎实的基础。

自创立以来，本团队开发了多个便捷高效的Stata命令，如cntrade、cnintraday、cnar等可以让用户快速获取中国股票日交易、日内分时数据、中国上市公司财务数据；chinagcode和chinaaddress实现了中文地址和经纬度的相互转换，reg2docx、t2docx、sum2docx和corr2docx使结果输出更加简洁，subinfile让网页内容分析和内容抓取异常简单……同时，团队也培养了众多优秀学生，向香港大学、香港理工大学、香港岭南大学和澳门大学等知名高校输送了一批高质量的研究助理，包括薛原、徐鑫、刘贝贝、李子健、赵一、周鹏、司海涛、张计宝等。由于技术精湛和工作勤奋受到用人单位的一致称赞。

迄今，武汉字符串数据科技有限公司已开展近20期线下培训活动，曾应邀在武汉大学、华中科技大学、厦门大学、中央财经大学、中南财经政法大学、西南财经大学、石河子大学、兰州财经大学、华中农业大学、郑州大学、新疆财经大学、西南政法大学、河南大学、长沙理工大学、湖北大学和湖北经济学院等高效举办Stata编程培训与实证研究方法分享，场场爆满座无虚席。

我们会继续努力，以培养学生、技术研发为己任，在少量盈利的基础上，努力将公益事业做好，传播实证技术和数据分析方法、开发数据分析的工具等，造福于学术界！

主要授课老师简介

李春涛

大学教授、博士生导师，香港大学博士，主要研究领域是公司治理和企业创新，在《经济研究》、《金融研究》、Journal of Comparative Economics等主流期刊上发表学术论文三十余篇。李老师是Stata统计软件的资深用户，有20多年的Stata编程经验，他有十多名学生正在或曾经在海外名校从事研究助理工作。

薛原

武汉字符串数据科技有限公司董事长，香港岭南大学研究助理，爬虫俱乐部高级成员，擅长Stata及python编程、正则表达式、字符串处理及网络爬虫技术。与李老师合作开发了chinagcode、chinaaddress、cnintraday、cnstock、subinfile、reg2docx、sum2docx、wordconvert等重要命令，实现了中文地址与经纬度之间的转换，中国上市公司股票代码和分时交易数据的获取以及修改文本文件，在《金融研究》等期刊发表学术论文数篇。

司海涛

武汉字符串数据科技有限公司总经理，香港大学经济与工商学院研究助理，爬虫俱乐部高级成员，擅长Stata编程、正则表达式、数据处理及网络爬虫技术。曾在《财经问题研究》、《江汉论坛》等期刊发表学术论文数篇。

张计宝

武汉字符串数据科技有限公司副总经理，香港理工大学研究助理，爬虫俱乐部高级成员，擅长Stata及python编程、正则表达式、数据处理、文本分析技术及网络爬虫技术。曾在《财政研究》等期刊发表学术论文数篇。

初级班课程大纲

第一部分：数据读入与Stata16的多框架数据系统

1) 熟悉界面

2) 多框架系统的基本原理

3) 读入多个数据

4) 寻求帮助（在线帮助、搜索帮助等）

5) DOS命令（cd、dir、erase、rm、shell等）

6) shellout调用其它系统应用

7) copy命令（文件操作、网页源代码获取等）

8) Stata常用30个命令介绍

9) 日期定义（日期格式设置、日期函数等）

10) 函数（字符串函数、随机函数、编程函数等）

11) egen函数与常见统计量

12) txt、csv、excel等格式文件读入

13) Wind交易数据整理案例

14) 基金经理变更数据整理案例

第二部分：宏与循环

1) local与global概念与基本操作

2) 宏扩展函数

3) while、foreach、forvalue循环

4) 跳出循环的continue 和continue, break

5) 批量处理多个目录下的多个文件（fs命令）

6) 批量处理多个变量的多个取值（levelsof命令）

7) 读入Excel文件的多个sheet

8) NBER工作论文下载案例

9) 上交所年报抓取综合案例

10) 新浪财经公告信息抓取案例

11) CSMAR交易和财务数据整理案例

第三部分：数据库操作

1) 数据的纵向合并、横向合并与长宽变换

2) insobs增加观测值

3) expand

4) fillin

5) 工企数据库运用案例

6) Wind财务数据整理案例

7) 美国流行歌曲目录整理案例

8) 起死回生命令（preserve与restore）

9) CSSCI期刊目录整理案例

10) label命令介绍

11) labelsof、label 的宏扩展函数

12) 字符串处理（关键词、替换、提取等）

第四部分：Post命令

1) Stata 16之前的post命令工作原理

2) 定义post

a) 找朋友的案例

3) 用post计算股价同步性和Beta

4) 基于网络数据的事件研究

5) 股本变更数据整理案例

6) Frame post的工作原理

a) 使用frame计算同步性

b) 使用frame实现事件研究

c) 使用frame link替代merge

d) 使用多框架frame 替代事件研究中的矩阵

e) 使用frame 替代 preserve restore

第五部分：回归分析及结果输出

1) putdocx命令输出内容至word文档

a) 编辑docx文件中的文字内容

b) 输出并编辑表格内容

c) 输出内存中的list结果

d) 输出矩阵

e) 输出绘图

2) putdocx命令相关案例

a) 输出十进位制下的汉字unicode编码

b) 结合常用汉字生成随机汉字组成的段落

c) 爬取并输出陕西省人大代表信息

d) 添加footnote

e) 横页（Landscape）和竖页（portrait）交替出现

f) 添加段落

g) 从文本文件中添加内容

3) 实证结果输出

a) 描述性统计信息：sum2docx

b) 分组均值t检验：t2docx

c) 相关系数矩阵：corr2docx

d) 回归结果：reg2docx

4) 实证结果输出完整展示

高级班课程大纲

第一部分：正则表达式

1) 正则表达式基本函数介绍

a) ustrregexm()

b) ustrregexs()

c) ustrregexrf()与ustrregexra()

2) 正则表达式元字符介绍

a) 基本元字符

b) 数量元字符

c) 位置元字符

d) 前后查找

e) 特殊字符元字符

f) 回溯引用

g) unicode编码

3) 正则表达式匹配模式

a) 贪婪模式

b) 懒惰模式

4) 正则表达式例子

a) 邮编提取

b) 英文姓与名的拆分

c) CSSCI数据预处理

d) 城市名称提取

e) 英文姓名的拆分

f) 用正则表达式表示日期

g) 北大法宝裁判文书信息提取

5) 正则表达式相关命令介绍

a) moss命令与简单的词频统计

第二部分：网络爬虫

1) 网络爬虫的基本原理

2) Stata爬虫基本流程

a) 新浪财经的上市公司公告内容抓取

b) 新浪财经上市公司高管任职信息与简历抓取

c) 百度地图API的调用

3) Chrome浏览器抓包功能的使用

a) 深交所信息披露质量数据抓取

4) POST请求方式

a) 新浪财经港股交易数据

b) 命令行工具curl的使用

c) Python接口的调用

第三部分：文本分析

1) 分词原理

2) 分词的实现

a) ustrwordcount()和ustrword()

b) 调用Python的jieba和pynlpir

c) Bosonnlp的API

d) 词频统计

3) 高亮输出文章重点

4) 词云图的实现

5) 情感分析原理

6) 情感分析的实现

a) 年报MDA语调分析

b) 构建词库计算情感值

c) 大众点评日料评论情感分析

培训对象

国内高校教师、硕士生、博士生、科研院所科研人员、大数据工作者，出国留学人员、社会团体及Stata爱好者。

培训日程安排

初级班报到及软件安装：2020年1月4日初级班上课时间：2020年1月5日—1月7日高级班报到及软件安装：2020年1月8日高级班上课时间：2020年1月9日—1月11日培训地点：湖北—武汉

报名步骤

1、扫描下方二维码（或点击文末阅读原文）填写表单并提交报名信息

2、缴费（缴费前请联系负责人确认缴费方式）

3、发送缴费截图至statatraining@163.com（邮件主题为“爬虫俱乐部2020第一期Stata培训+姓名+单位+班次”）

4、完成以上步骤即报名成功

培训费用及优惠

	非学生	学生
初级班	3000	2400
高级班	4800	4000
初、高级班	7000	6000

（学生报名需提供有效学生证件）

支付方式

对公转账开户名：武汉字符串数据科技有限公司开户行：中国银行股份有限公司武汉中南财经政法大学分理处对公账号：579473738265对私转账支付宝：13212746629（孙雪丽）

其他事项及培训安排

1、请学员自带笔记本电脑，我们将提供正版Stata16试用软件。2、本次培训食宿及往返交通费用需学员自理。3、即日起开始正式报名和收费。

相关单位

主办方：武汉字符串数据科技有限公司爬虫俱乐部

联系方式

负责人：孙雪丽Q Q：1499327247微信：13212746629手机：13212746629邮箱：13212746629@163.com

对爬虫俱乐部的推文累计打赏超过1000元我们即可给您开具发票，发票类别为“咨询费”。用心做事，只为做您更贴心的小爬虫！

关于我们

微信公众号“爬虫俱乐部”分享实用的stata命令，欢迎转载、打赏。爬虫俱乐部是由李春涛教授领导下的研究生及本科生组成的大数据分析和数据挖掘团队。

此外，欢迎大家踊跃投稿，介绍一些关于stata的数据处理和分析技巧。

投稿邮箱：statatraining@163.com

投稿要求：
1）必须原创，禁止抄袭；
2）必须准确，详细，有例子，有截图；
注意事项：
1）所有投稿都会经过本公众号运营团队成员的审核，审核通过才可录用，一经录用，会在该推文里为作者署名，并有赏金分成。
2）邮件请注明投稿，邮件名称为“投稿+推文名称”。
3）应广大读者要求，现开通有偿问答服务，如果大家遇到关于stata分析数据的问题，可以在公众号中提出，只需支付少量赏金，我们会在后期的推文里给予解答。

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

爬虫俱乐部2020第一期Stata编程训练营开始报名啦！

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

爬虫俱乐部2020第一期Stata编程训练营开始报名啦！

您可能也对以下帖子感兴趣