「无代码」高效的爬取网页数据神器

神器介绍

工作中,我们有时需要获取某个网站中的数据作为素材,比如一些热点排名。但是不会写代码或觉得写代码爬取太麻烦,那有没有什么高效的工具能帮助我们解决这个问题呢?需要获取某个网站中的数据作为素材,比如一些热点排名。但是不会写代码或觉得写代码爬取太麻烦,那有没有什么高效的工具能帮助我们解决这个问题呢?

神器介绍

web scraper 是 Chrome 浏览器的插件,能够通过图像界面的方式帮助我们抓取网页上的数据。

这是一款免费的 Chrome 浏览器扩展,只要建立sitemap即可抓取相应的数据,无需写代码即可抓取95%以上的网站数据(比如博客列表,知乎回答,微博评论等)

image-20211017105844174.png

(下载链接:国内国外

image-20211017110105980.png

使用教程

以 B 站的排行榜为例,我们需要抓取排行榜的数据。(地址:https://www.bilibili.com/v/popular/rank/all)

image-20211017110312099.png

1.首先我们已经安装好 web scraper 插件,通过 F12 打开开发工具,找到插件页面。

image-20211017110504324.png

2.可以看到多了个 web scraper 标签,下面有 sitemapssitemapcreate new sitemap ,点击 create 新建一个爬虫抓取任务。name 随意填一个,url 填入网页访问地址即可。

image-20211017110851277.png

image-20211017111327079.png

3.然后点击add new selector 添加新的选择器,给id起个名,type为 element ,点击 select 选中需要爬取的页面元素,可以看到网页标红了。

然后再选择第二条,可以看到下面的内容都选中了,点击 done selecting 就好了。

image-20211017111357317.png

image-20211017111726208.png

image-20211017111801075.png

接着点击 element preview 预览下可以看到页面元素都抓取到了,还要选中 Multiple 。然后保存选择器。

image-20211017111909049.png

4.然后通过以上方式新建选择器,将排名,标题,播放量,评论量,简介图,链接等数据抓取。点击 selector graph 可以看到抓取的选择器关系图。

image-20211017121740969.png

image-20211017122122642.png

5.然后选择器都建好后点击 scrape 开始抓取数据,等待抓取完成,刷新数据预览。

image-20211017122308059.png

image-20211017122326634.png

image-20211017122439686.png

6.最后可导出 CSV 文件,用excel查看抓取数据。

image-20211017122535265.png

image-20211017122726908.png

总结

最后,附上我的抓取脚本,导入即可爬取数据。

  1. {"_id":"bilibili","startUrl":["https://www.bilibili.com/v/popular/rank/all"],"selectors":[{"id":"bilibili_rank","parentSelectors":["_root"],"type":"SelectorElement","selector":"li.rank-item","multiple":true,"delay":0},{"id":"-排名","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":" div.num","multiple":true,"delay":0,"regex":""},{"id":"-标题","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":"a.title","multiple":false,"delay":0,"regex":""},{"id":"播放量","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":".detail > span:nth-of-type(1)","multiple":false,"delay":0,"regex":""},{"id":"评论量","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":"span:nth-of-type(2)","multiple":false,"delay":0,"regex":""},{"id":"简介图","parentSelectors":["bilibili_rank"],"type":"SelectorImage","selector":"img","multiple":false,"delay":0},{"id":"-链接","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":"a.title","multiple":false,"delay":0,"regex":""}]}

文章标签:

原文连接:https://juejin.cn/post/7020289629748199455

相关推荐

爬虫部署 Gerapy 安装(centos 8)演示

在座的Python爬虫工程师,你敢爬律师事务所站点吗?

写Python爬虫又被屏蔽了,你现在需要一个稳定的代理IP

【Python爬虫实战】 不生产小说,只做网站的搬运工,太牛逼了~(附源码)

【js逆向爬虫】-有道翻译js逆向实战

Python爬虫 爬取下载美国科研网站数据

Python爬虫eval混淆,爬虫进阶实战系列,双案例电视猫+掌房

【Python爬虫技巧】快速格式化请求头Request Headers

【2022 年】崔庆才 Python3 爬虫教程 - ADSL 拨号代理的使用

全国空气质量爬取实战

【2022 年】崔庆才 Python3 爬虫教程 - 高效代理池的维护

爬虫基本原理介绍、实现以及问题解决

100天精通Python(爬虫篇)——第46天:爬虫解析器BeautifulSoup4

Go语言爬虫+正则简单使用

【2022 年】崔庆才 Python3 爬虫教程 - 代理的使用方法

Java 网络爬虫就是这么的简单

Python爬虫如何加速?异步、协程还是多进程?分享一个常用做法,萌新也能看懂

【2022 年】崔庆才 Python3 爬虫教程 - 代理的基本原理

爬虫(14) - Scrapy-Redis分布式爬虫(1) | 详解

爬虫(9) - Scrapy框架(1) | Scrapy 异步网络爬虫框架