1条留言 [软件开发] 季雨林 2020/3/5 12:26:09
爬虫开发是最近几年突然活跃起来的需求,尤其是Python语言的新手教程特别喜欢用此来爬虫来举例学习。但是很多时候爬虫是会造成一些不必要的损失的,既有网站发布方的,又有爬虫编写人,运行人的损失。
是否担负责任主要在于是爬虫首先不能对网站的原有服务造成影响,例如:
1,给网站造成直接压力,甚至因为爬虫导致源站挂了
这事很常有,新手写代码tmd不知道加时间间隔,疯狂猛爬,每秒请求几十次不止,轻松将低配服务器打趴,我遭遇过不下 10 次
2,把对方某些付费资源消耗了
典型费用: https 费用,cdn相关费用,数据库日志费用等,我之所以知道,是因为我在 https 费用上花过钱
3,数据用于某些不恰当的目的
人家源头免费,你爬取后直接用于收费,导致商业争议
4,爬到了不适合公开的数据
有些数据人家会有删除需求,如果是内容需要及时更,你继续给人家曝光导致扩大错误影响的范围,这显然不合适
原文地址:
https://www.opengps.cn/Blog/View.aspx?id=649
文章的更新编辑依此链接为准。欢迎关注源站原创文章!