查看原文
其他

不用写代码,Chrome 扩展神器 web scraper 抓取知乎热榜/话题/回答/专栏,豆瓣电影

苏生不惑 苏生不惑 2022-07-24
前言
写代码太麻烦?用 web scraper 轻松抓取数据。

苏生不惑第195 篇原创文章,将本公众号设为星标,第一时间看最新文章。

之前分享过不会 Python 没关系,手把手教你用 web scraper 抓取豆瓣电影 top 250 和 b 站排行榜 ,后来我又玩了下,这个插件还挺有意思的,所以通过抓取知乎和豆瓣再总结分享下。

知乎热榜

知乎热榜地址 https://www.zhihu.com/hot  (其实知乎还有个单独的热榜页面https://www.zhihu.com/billboard ),这里新增一个type Element attribute ,因为之前抓取豆瓣链接用的 link,它把文字也抓取了,而我们只要里面的href属性。

同样的先创建一个element的容器。

里面加4个选择器:知乎排名 ,知乎标题, 知乎链接 ,知乎热度 。预览下数据没问题。开始抓取数据并导出CSV文件。不过生成的CSV文件排序乱了  。在排序和筛选里按照排名重新排下就好了(如果需要更复杂的排序可以借助Python的pandas),看最后的结果。不过有个问题,热榜里的广告没有热度,所以结果为null。

为了方便大家学习抓取,我导出了sitemap,你可以直接导入使用。

微信扫一扫付费阅读本文

可试读29%

微信扫一扫付费阅读本文

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存