爬虫应当注意什么?爬来的数据怎么使用?

[软件开发] 季雨林 2019/11/21 13:17:25

前言

今天收到一个网友留言,关注了我写的一篇《HTML5定位(浏览器定位技)术探讨》,注意到我提到了“公开源码”相关字眼,于是就爬取了我的站点内容,发现自己使用并不好用。实际原因其实仅仅是这个功能的使用条件不符合。另外,我看了下爬取结果,是全站点的公开内容,所以引申出此文,发表下我的对爬取行为的看法。


什么是爬虫?

爬虫,是一个动物类别,但是本文要说的显然不是动物。本文要说说爬虫程序,爬虫在计算机领域,说的是一类程序,用来完成特定内容访问存储的功能,宛如蜘蛛等爬行动物一样到处跑,所以这里程序就被称作爬虫。


爬虫程序的作用?

爬虫通常都是说的网页爬虫,爬取目标为各种网站的内容。最电信的爬虫就是搜索引擎,不管谷歌也好,百度也罢。其获取信息方式都是使用爬虫,当然在这个领域更喜欢叫做“蜘蛛”。负责从网上寻找内容,记录简要内容,然后回去加工成索引,供大家在搜索引擎下查询。也就是说,我们平常上网,google搜来的或者baidu搜来的内容,实际上仅仅是被爬虫发现的内容,仅仅是蜘蛛访问时刻的内容,并非网站此时此刻的状态。

也就是说,搜索引擎的蜘蛛爬虫,是用来索引互联网内容的。

但是实际上爬虫并非仅仅是用来做搜索引擎,从其行为可以得出结论:爬虫是在获取公开信息!


爬虫是否合法?

搜索引擎行业的蜘蛛爬虫现在早已形成“规约”,各大搜索引擎也会遵守,因此搜索引擎的爬虫已经都可以认为是合法,这类爬虫是否合法问题不在本文探讨之列。随着Python等开发语言的兴起,爬虫程序成了大家比较热门的一个学习方向。很多人经常写个爬虫拿来练手,甚至实现一些私人目的爬取一些数据,因此最近这1-2年也就不断出现新的争议:爬虫是否合法?

首先说,爬虫应当是只爬取公开内容,这样至少不算“偷窥”,还不至于直接被认为非法。但是,这时候往往存在这样的一些“踩线行为”:

1,给源站带来过大压力:这会导致爬虫行为,变成了一种“攻击行为”!

2,给源站带来明显的“成本消耗”:例如cdn流量资源,请求次数费用等场景,爬虫行为导致了对方的成本支出增加,这就可以算是一种“恶意行为”!

3,未经授权用于商业使用:由此产生一些“版权纠纷”,“利益纠纷”,显然是对爬虫使用方不利的!

很多网站的“登录后”才可见的内容,在被爬取的时候,需要慎重,因为这部分内容,极大可能属于“隐私内容”。这个时候就已经可以直接判定为非法!



如何合理合法的使用爬虫?本站观点:

爬取之前:一定要慎重判断,是否存在“争议”项,用来避免后续源站内容过来维权,引发的权益纠纷。

爬取的内容:一定要判断是否大众公开可见,这至少可以很大程度避免“涉及隐私”问题。爬取他人内容,建议提前做好沟通,提前说明转载后是否带有“商业”属性,由此作为对自身的一个“自我保护”。

爬取结果的展示:至少带上原文链接,这是对原作者的一种尊重。

爬虫结果的收益:对于产生了收益的爬取内容,请同样支持一下源站的创作。生财之道一定要共赢,不能仅仅用于私利,这是对于原创生态保护的一种鼓励。



原文地址: https://www.opengps.cn/Blog/View.aspx?id=541 文章的更新编辑依此链接为准。欢迎关注源站原创文章!

评论

暂无评论!

发表评论:

用于接收作者回复信息
点击更换验证码 - openGPS提示