爬虫应当注意什么？爬来的数据怎么使用？

前言

今天收到一个网友留言，关注了我写的一篇《HTML5定位（浏览器定位技）术探讨》，注意到我提到了“公开源码”相关字眼，于是就爬取了我的站点内容，发现自己使用并不好用。实际原因其实仅仅是这个功能的使用条件不符合。另外，我看了下爬取结果，是全站点的公开内容，所以引申出此文，发表下我的对爬取行为的看法。

什么是爬虫？

爬虫，是一个动物类别，但是本文要说的显然不是动物。本文要说说爬虫程序，爬虫在计算机领域，说的是一类程序，用来完成特定内容访问存储的功能，宛如蜘蛛等爬行动物一样到处跑，所以这里程序就被称作爬虫。

爬虫程序的作用？

爬虫通常都是说的网页爬虫，爬取目标为各种网站的内容。最电信的爬虫就是搜索引擎，不管谷歌也好，百度也罢。其获取信息方式都是使用爬虫，当然在这个领域更喜欢叫做“蜘蛛”。负责从网上寻找内容，记录简要内容，然后回去加工成索引，供大家在搜索引擎下查询。也就是说，我们平常上网，google搜来的或者baidu搜来的内容，实际上仅仅是被爬虫发现的内容，仅仅是蜘蛛访问时刻的内容，并非网站此时此刻的状态。

也就是说，搜索引擎的蜘蛛爬虫，是用来索引互联网内容的。

但是实际上爬虫并非仅仅是用来做搜索引擎，从其行为可以得出结论：爬虫是在获取公开信息！

爬虫是否合法？

搜索引擎行业的蜘蛛爬虫现在早已形成“规约”，各大搜索引擎也会遵守，因此搜索引擎的爬虫已经都可以认为是合法，这类爬虫是否合法问题不在本文探讨之列。随着Python等开发语言的兴起，爬虫程序成了大家比较热门的一个学习方向。很多人经常写个爬虫拿来练手，甚至实现一些私人目的爬取一些数据，因此最近这1-2年也就不断出现新的争议：爬虫是否合法？

首先说，爬虫应当是只爬取公开内容，这样至少不算“偷窥”，还不至于直接被认为非法。但是，这时候往往存在这样的一些“踩线行为”：

1，给源站带来过大压力：这会导致爬虫行为，变成了一种“攻击行为”！

2，给源站带来明显的“成本消耗”：例如cdn流量资源，请求次数费用等场景，爬虫行为导致了对方的成本支出增加，这就可以算是一种“恶意行为”！

3，未经授权用于商业使用：由此产生一些“版权纠纷”，“利益纠纷”，显然是对爬虫使用方不利的！

很多网站的“登录后”才可见的内容，在被爬取的时候，需要慎重，因为这部分内容，极大可能属于“隐私内容”。这个时候就已经可以直接判定为非法！

如何合理合法的使用爬虫？本站观点：

爬取之前：一定要慎重判断，是否存在“争议”项，用来避免后续源站内容过来维权，引发的权益纠纷。

爬取的内容：一定要判断是否大众公开可见，这至少可以很大程度避免“涉及隐私”问题。爬取他人内容，建议提前做好沟通，提前说明转载后是否带有“商业”属性，由此作为对自身的一个“自我保护”。

爬取结果的展示：至少带上原文链接，这是对原作者的一种尊重。

爬虫结果的收益：对于产生了收益的爬取内容，请同样支持一下源站的创作。生财之道一定要共赢，不能仅仅用于私利，这是对于原创生态保护的一种鼓励。

原文地址： https://www.opengps.cn/Blog/View.aspx?id=541 文章的更新编辑依此链接为准。欢迎关注源站原创文章！

爬虫应当注意什么？爬来的数据怎么使用？

评论

发表评论：

云计算

同类别文章

最新文章

AD