查看原文
其他

爬虫俱乐部的精彩答疑--爬虫为何失败?

爬虫俱乐部 Stata and Python数据分析 2023-01-01


本文作者:赵春旭,中南财经政法大学金融学院

本文编辑:智淼

技术总编:方一卓


Stata&Python云端课程来啦!

      好消息好消息,爬虫俱乐部开辟小鹅通战场!!爬虫俱乐部隆重推出小鹅通网络课程,将Stata基础课程Stata进阶课程Python课程都上传至小鹅通平台,欢迎大家多多支持订阅!报名课程即可加入答疑群,对报名有任何疑问欢迎在公众号后台留言哦。如需了解详情,可以通过课程链接(https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10)或课程二维码进行访问哦~


· 引言 ·


内容好,讲得好,更要答疑好!优秀的答疑将会让同学们在学习的路上少走很多弯路,将时间充分利用起来!  

爬虫俱乐部不仅有优质的课程,更有24小时的答疑服务每日Q&A整理,创建了良好的交流环境。在答疑团队的努力下,同学们热情高涨,学习效率和学习热情不断提高!  

从软件安装、数据读入到网络爬虫、正则表达式,爬虫俱乐部的答疑团队都为大家提供了多样、高效、细致的答疑服务!希望能够为同学们营造一个良好优秀的学习空间!为同学们以后的学习生涯打下坚实的基础!

答疑群内的精彩答疑 


  面对学习群内的问题,答疑团队都积极主动进行回答,为同学们答疑解惑,收获了同学们的一致好评!

左右滑动查看更多

 接下来就是精彩的答疑案例分享,供大家参考和学习。

在日常的答疑中,我们发现,同学们经常出现网络爬虫爬取失败的问题,接下来就为大家分享几个小案例,供大家学习和参考。

案例1

 第一位同学想要将NBER网站中工作论文的pdf文件爬取出来,出现爬取失败:

答疑人员首先检查了这位同学的代码,发现代码没有错误,问题应该出现在网址上面。进入该同学想要爬取的网址页面,答疑人员发现,该页面并不是相应的pdf下载链接,而是工作论文信息页面。在该页面上有一个pdf下载入口,点击该入口能够手动下载到pdf文件。对于copy命令来说,它并不能帮助我们下载文件,只能帮助我们爬取网页的源代码。  

因此,我们为该同学提供了两种方案:  

方案一:在此网页中,pdf的链接应该为点击下载入口之后出现的链接,点击之后,使用copy命令爬取pdf的链接就可以爬取到pdf,但此举需要手动操作,不建议大家采用。  

方案二:该同学copy的网址中既然存在pdf下载入口,那么在该网址的源代码中必然存在着pdf的下载链接,可以先爬取该网址的源代码,之后将pdf的下载链接保存起来以供下一步的提取。这种方法具有可重复性,更推荐大家使用。

案例2

  这位同学想要使用循环爬取多个网站的数据,却发现均显示爬取失败:

经过对代码进行检查,发现该同学的网址中存在两个与循环算子相关的子字符串,本应均替换成循环算子,但该同学仅替换了一个,所以出现错误。将两处均按照循环算子进行调整后就成功爬取啦!还有一位同学也出现了跟上一位同学类似的问题,只成功爬取了一个文件:

观察这位同学代码中的网址发现,有两处需要转换成循环算子。但是这位同学也仅仅只转换了一个。那为何不像上一位同学一样全部出错,成功爬取了一个文件呢?因为这个网址中被遗漏的,本应转换为循环算子的字符恰好与循环算子的第一个内容相同!这是一个美丽的误会!


  最后,网络爬虫的时候一定要细心哦,要观察好网址和源代码的特点,这样才不会在爬取和后续处理中出错!

  以上就是本次分享的精彩答疑案例啦,希望我们挑选出来的案例能对大家有所帮助!

重磅福利!为了更好地服务各位同学的研究,爬虫俱乐部将在小鹅通平台上持续提供金融研究所需要的各类指标,包括上市公司十大股东、股价崩盘、投资效率、融资约束、企业避税、分析师跟踪、净资产收益率、资产回报率、国际四大审计、托宾Q值、第一大股东持股比例、账面市值比、沪深A股上市公司研究常用控制变量等一系列深加工数据,基于各交易所信息披露的数据利用Stata在实现数据实时更新的同时还将不断上线更多的数据指标。我们以最前沿的数据处理技术、最好的服务质量、最大的诚意望能助力大家的研究工作!相关数据链接,请大家访问:(https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10)或扫描二维码:


    最后,我们为大家揭秘雪球网(https://xueqiu.com/)最新所展示的沪深证券和港股关注人数增长Top10。


对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!





往期推文推荐

       利用Stata批量制作学生证

     【数据分析-入门】科学计算基本库—Numpy的简单使用      Stata绘图系列——玩转绘图通用选项之图例     【基础篇】数据类型介绍——list、tuple和range对象

覆盖北交所的“cnstock”复工了!

高考热度大数据爬虫——谁才是院校顶流

跨框架数据操作

      河南大学经济学院2022年Stata数据处理与爬虫技术开班仪式顺利召开

爬虫俱乐部的精彩答疑——local function

爬虫俱乐部精彩答疑——Python中的三种文件读取方法爬虫俱乐部的精彩答疑--认真仔细方能写出好程序
爬虫俱乐部Python精彩答疑——更换Jupyter Notebook浏览器及dropna()参数详解
       爬虫俱乐部的精彩答疑--如何打开Excel中扩展名与文件源码不符的文件

解锁《梦华录》之东京繁华生活

爬虫俱乐部的精彩答疑——DOS命令

爬虫俱乐部的精彩答疑之换行问题

爬虫俱乐部的精彩答疑--路径设置乱码怎么破?

爬虫俱乐部的精彩答疑--putdocx的二三事

爬虫俱乐部精彩答疑之Python篇

爬虫俱乐部的精彩答疑--花式重命名变量

关于我们 


   微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

   武汉字符串数据科技有限公司一直为广大用户提供数据采集和分析的服务工作,如果您有这方面的需求,请发邮件到statatraining@163.com,或者直接联系我们的数据中台总工程司海涛先生,电话:18203668525,wechat: super4ht。海涛先生曾长期在香港大学从事研究工作,现为知名985大学的博士生,爬虫俱乐部网络爬虫技术和正则表达式的课程负责人。



此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。

投稿邮箱:statatraining@163.com投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里
为作者署名,并有赏金分成。

2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可


以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。







您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存