爬虫免责注意:编写爬虫运行爬虫需要注意的地方

1条留言 [软件开发] 季雨林 2020/3/5 12:26:09

爬虫开发是最近几年突然活跃起来的需求,尤其是Python语言的新手教程特别喜欢用此来爬虫来举例学习。但是很多时候爬虫是会造成一些不必要的损失的,既有网站发布方的,又有爬虫编写人,运行人的损失。


是否担负责任主要在于是爬虫首先不能对网站的原有服务造成影响,例如:

1,给网站造成直接压力,甚至因为爬虫导致源站挂了

这事很常有,新手写代码tmd不知道加时间间隔,疯狂猛爬,每秒请求几十次不止,轻松将低配服务器打趴,我遭遇过不下 10 次

2,把对方某些付费资源消耗了

典型费用: https 费用,cdn相关费用,数据库日志费用等,我之所以知道,是因为我在 https 费用上花过钱

3,数据用于某些不恰当的目的

人家源头免费,你爬取后直接用于收费,导致商业争议

4,爬到了不适合公开的数据

有些数据人家会有删除需求,如果是内容需要及时更,你继续给人家曝光导致扩大错误影响的范围,这显然不合适



原文地址: https://www.opengps.cn/Blog/View.aspx?id=649 文章的更新编辑依此链接为准。欢迎关注源站原创文章!

评论

2020/10/21 13:50:19, 1.188.212.*说:
https 费用,cdn相关费用,数据库日志费用,你好,这几方面的费用是怎么产生的啊?要怎么才能避免呢?
【回复】我产生这个费用是因为我用了阿里云dcdn发布的,阿里云的全站加速服务dedn,需要收取这部分费用。使用者其实并不能知道这部分费用,而我之所以买的套餐包不够用,也是因为不遇到爬虫用不了那么多资源。

发表评论:

用于接收作者回复信息
点击更换验证码 - openGPS提示