不用写代码，Chrome 扩展神器 web scraper 抓取知乎热榜/话题/回答/专栏，豆瓣电影

Original 苏生不惑苏生不惑 2022-07-24

前言

写代码太麻烦？用 web scraper 轻松抓取数据。

苏生不惑第195 篇原创文章，将本公众号设为星标，第一时间看最新文章。

之前分享过不会 Python 没关系，手把手教你用 web scraper 抓取豆瓣电影 top 250 和 b 站排行榜，后来我又玩了下，这个插件还挺有意思的，所以通过抓取知乎和豆瓣再总结分享下。

知乎热榜

知乎热榜地址 https://www.zhihu.com/hot （其实知乎还有个单独的热榜页面https://www.zhihu.com/billboard ），这里新增一个type Element attribute ，因为之前抓取豆瓣链接用的 link，它把文字也抓取了，而我们只要里面的href属性。

同样的先创建一个element的容器。

里面加4个选择器：知乎排名，知乎标题，知乎链接，知乎热度。预览下数据没问题。开始抓取数据并导出CSV文件。不过生成的CSV文件排序乱了。在排序和筛选里按照排名重新排下就好了（如果需要更复杂的排序可以借助Python的pandas），看最后的结果。不过有个问题，热榜里的广告没有热度，所以结果为null。

为了方便大家学习抓取，我导出了sitemap，你可以直接导入使用。

微信扫一扫付费阅读本文

可试读29%

微信扫一扫付费阅读本文

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

劲爆！为了姜萍两位女CEO互揭老底！

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

又一女明星涉毒被判刑！自称为了“刺激大脑”创作，央视网发文痛批

谁会想到，裁员会裁到总编辑头上

不用写代码，Chrome 扩展神器 web scraper 抓取知乎热榜/话题/回答/专栏，豆瓣电影

知乎热榜

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

劲爆！为了姜萍两位女CEO互揭老底！

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

又一女明星涉毒被判刑！自称为了“刺激大脑”创作，央视网发文痛批

谁会想到，裁员会裁到总编辑头上

生成图片，分享到微信朋友圈

不用写代码，Chrome 扩展神器 web scraper 抓取知乎热榜/话题/回答/专栏，豆瓣电影

知乎热榜

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！