前言
今天收到一个网友留言,关注了我写的一篇《HTML5定位(浏览器定位技)术探讨》,注意到我提到了“公开源码”相关字眼,于是就爬取了我的站点内容,发现自己使用并不好用。实际原因其实仅仅是这个功能的使用条件不符合。另外,我看了下爬取结果,是全站点的公开内容,所以引申出此文,发表下我的对爬取行为的看法。
什么是爬虫?
爬虫,是一个动物类别,但是本文要说的显然不是动物。本文要说说爬虫程序,爬虫在计算机领域,说的是一类程序,用来完成特定内容访问存储的功能,宛如蜘蛛等爬行动物一样到处跑,所以这里程序就被称作爬虫。
爬虫程序的作用?
爬虫通常都是说的网页爬虫,爬取目标为各种网站的内容。最电信的爬虫就是搜索引擎,不管谷歌也好,百度也罢。其获取信息方式都是使用爬虫,当然在这个领域更喜欢叫做“蜘蛛”。负责从网上寻找内容,记录简要内容,然后回去加工成索引,供大家在搜索引擎下查询。也就是说,我们平常上网,google搜来的或者baidu搜来的内容,实际上仅仅是被爬虫发现的内容,仅仅是蜘蛛访问时刻的内容,并非网站此时此刻的状态。
也就是说,搜索引擎的蜘蛛爬虫,是用来索引互联网内容的。
但是实际上爬虫并非仅仅是用来做搜索引擎,从其行为可以得出结论:爬虫是在获取公开信息!
爬虫是否合法?
搜索引擎行业的蜘蛛爬虫现在早已形成“规约”,各大搜索引擎也会遵守,因此搜索引擎的爬虫已经都可以认为是合法,这类爬虫是否合法问题不在本文探讨之列。随着Python等开发语言的兴起,爬虫程序成了大家比较热门的一个学习方向。很多人经常写个爬虫拿来练手,甚至实现一些私人目的爬取一些数据,因此最近这1-2年也就不断出现新的争议:爬虫是否合法?
首先说,爬虫应当是只爬取公开内容,这样至少不算“偷窥”,还不至于直接被认为非法。但是,这时候往往存在这样的一些“踩线行为”:
1,给源站带来过大压力:这会导致爬虫行为,变成了一种“攻击行为”!
2,给源站带来明显的“成本消耗”:例如cdn流量资源,请求次数费用等场景,爬虫行为导致了对方的成本支出增加,这就可以算是一种“恶意行为”!
3,未经授权用于商业使用:由此产生一些“版权纠纷”,“利益纠纷”,显然是对爬虫使用方不利的!
很多网站的“登录后”才可见的内容,在被爬取的时候,需要慎重,因为这部分内容,极大可能属于“隐私内容”。这个时候就已经可以直接判定为非法!
如何合理合法的使用爬虫?本站观点:
爬取之前:一定要慎重判断,是否存在“争议”项,用来避免后续源站内容过来维权,引发的权益纠纷。
爬取的内容:一定要判断是否大众公开可见,这至少可以很大程度避免“涉及隐私”问题。爬取他人内容,建议提前做好沟通,提前说明转载后是否带有“商业”属性,由此作为对自身的一个“自我保护”。
爬取结果的展示:至少带上原文链接,这是对原作者的一种尊重。
爬虫结果的收益:对于产生了收益的爬取内容,请同样支持一下源站的创作。生财之道一定要共赢,不能仅仅用于私利,这是对于原创生态保护的一种鼓励。
原文地址:
https://www.opengps.cn/Blog/View.aspx?id=541
文章的更新编辑依此链接为准。欢迎关注源站原创文章!