查看原文
其他

Stata实现Excel中vlookup函数功能

爬虫俱乐部 Stata and Python数据分析 2022-03-15

本文作者:王碧琪

文字编辑:李婷婷

技术总编:余术玲

爬虫俱乐部云端课程来袭!

爬虫俱乐部将于2020年8月25日至28日在线上举行Stata数据分析法律与制度专题训练营,主要是为了让学员掌握Stata软件进阶操作,涉及内容包括基本字符串函数及其应用、正则表达式、法律与制度数据网络爬虫技巧、判案文书的文本分析等技术。详情请参考8月Stata数据分析法律与制度专场来啦!

    另外,爬虫俱乐部于2020年7月在线上举办的Stata与Python编程技术训练营已圆满结束。应广大学员需求,我们的课程现已在腾讯课堂双双上线,且继续提供答疑服务。现在关注公众号并在朋友圈转发推文《来腾讯课堂学Stata和Python啦!》,即可获得600元课程优惠券,集赞50个再领200元课程优惠劵!(截图发至本公众号后台领取)原价2400元的课程,现在只要1600元

导读

在数据分析时,使用过Excel的小伙伴必备的能力之一就是会用vlookup函数。小编在尝试了之后,觉得Stata也能做同样的事情,所以今天跟随小编一起,用Stata实现Excel中vlookup函数功能吧。

一、简介
(一)vlookup函数简介

vlookup函数的官方文件介绍如下:“当需要在表格或区域中按行查找项目时,请使用 VLOOKUP。例如,按部件号查找汽车部件的价格,或根据员工ID查找员工姓名。在这一最简单的形式中,VLOOKUP函数表示:= VLOOKUP(你想要查找的内容,要查找的位置,包含要返回的值的区域中的列号,返回近似或精确匹配-表示为1/TRUE或0/假)。”

(二)数据简介

本文使用的原始数据文件来源于《高校经管类核心期刊发文排行榜|2010-2019》中公布的全国高校经管类核心期刊发文排行榜(前200),文件名为“第一单位排名汇总.xlsx”。为方便读者调用,我们把推文中用到的数据分别保存为独立的文件并且上传到爬虫俱乐部云端数据源,读者可自行下载使用,下载网址是https://stata-club-1257787903.cos.ap-chengdu.myqcloud.com/%E7%AC%AC%E4%B8%80%E5%8D%95%E4%BD%8D%E6%8E%92%E5%90%8D%E6%B1%87%E6%80%BB.xlsx

部分数据显示如下:

(三)结果文件样式

现在有一部分大学名单,想要提取该大学对应的“发文量”和“发文排名”数据。其中,大学名单为乱序,且可能存在原始文件中找不到的情况(北京第二外国语学院无对应数据)。

本文的处理目的是将上述表格填充完整。

二、程序处理

Excel处理公式如下:

由于本文主要使用Stata处理,所以关于Excel的处理方式大家可以自行上网搜索学习。

 

接下来使用Stata进行处理。

(一)准备工作
clear all //清除可能存在的postfilecap mkdir F:\vlookupcd F:\vlookup //更改工作路径import excel F:\vlookup\第一单位排名汇总.xlsx, sheet("Sheet1") firstrow //导入数据(我们把原始数据放到了F盘的vlookup文件夹中)input str30 final_univ //输入待提取大学名单北京第二外国语学院中南财经政法大学深圳大学上海大学华中科技大学end
(二)使用post命令

创建名为univ的邮局系统,内含一个信封univ.dta,依次放入"大学"、"发文量"、"发文排名"。

postfile univ str30 大学 发文量 发文排名 using univ.dta,replace //创建postfile

使用levelsof遍历待提取大学名单,对每一个大学分别匹配搜索,再post出去。

levelsof final_univ,local(univ) //将待提取大学名单放入暂元里foreach l of local univ{ //对每个大学进行搜索匹配 preserve keep if 大学=="`l'"  post univ (大学) (发文量) (发文排名)   restore}postclose univ //保存postfileuse univ,clear //查看结果数据edit

运行结果如下:

结果文件中有5个大学,待提取大学名单中的“北京第二外国语学院”没有相关数据,却多了一条“中国人民大学”的数据(这是由于在post时没有找到合适的目标数据,就post出了原文件的第一条数据)。这里我们想保留“北京第二外国语学院”的数据,列示为0。采用以下程序进行判断,如果搜索匹配之后,数据集中的数据条数为0,则判断为数据不存在,post出的结果文件保留大学名称,发文数量和发文排名填充为0。上述程序改为:

postfile univ str30 大学 发文量 发文排名 using univ.dta,replace //创建postfilelevelsof final_univ,local(univ) //将待提取大学名单放入暂元里foreach l of local univ{ //对每个大学进行搜索匹配 preserve keep if 大学=="`l'" if _N == 1{  post univ (大学) (发文量) (发文排名)   } else if _N ==0{ //如果没有找到匹配某大学的结果,post如下数据 post univ ("`l'") (0) (0) } restore}postclose univ //保存postfileuse univ,clear //查看结果数据edit

结果为:

相较于之前的结果,本次结果中完整展示了5所大学的数据,包含了没有匹配到的“北京第二外国语学院”。

最后一步,将数据文件导出成Excel格式文件即可。

export excel using "F:\vlookup\univ.xls", firstrow(variables) replace //导出成excel文件
三、结语

以上就是使用Stata实现了Excel中的vlookup函数功能的全部内容。在处理大量数据时,Stata可以更加快速便捷地实现目标。有需求的小伙伴可以试试。





对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!
往期推文推荐
gen与egen,傻傻分不清楚?

用WordStat看中国日报新闻(二)

一招轻松合并文件——openall命令介绍

爬虫俱乐部平安经
一个函数实现PDF文档合并与拆分
补全股票代码位数的一百种姿势

明星闪闪亮:各校高被引论文

高校经管类核心期刊发文排行榜|2010-2019

PDF图片提取
PDF文档转换成图片

split和nsplit助你轻松拆分

集成学习介绍之三——Stacking算法

PyMuPDF提取文本信息

Mylabels命令介绍  

用WordStat看中国日报新闻  

数据集的划分——交叉验证法

大数据视角下的大学录取分数排行
关于我们


微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

此外,欢迎大家踊跃投稿,介绍一些关于stata和python的数据处理和分析技巧。
投稿邮箱:statatraining@163.com
投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存