爬虫爬取数据会被发现吗?

4条留言 [网络安全] 季雨林 2019/10/20 19:57:06

题目的问题,特别容易回答:会!

尤其是那些“不限速”的爬虫,对方可以很轻松的发现异常流量和请求频率。


今天分享一例:125.211.26.7这个IP爬取了我的网站列表页!

原因特别清楚,我的服务器是单机配置(内心独白:盼望着将来流量达到需要依赖集群的规模),虽然有cdn,但是对于参数变化我是不走cdn缓存的,因此这个请求会被硬生生的转发到源站服务器。恰恰我作为一个自称中级运维的开发人员,配置了cpu使用率报警。正常来讲,我的网站访问量非常均衡,一秒钟超过10个都是极端例子了,所以1核心的配置对我来说戳戳有余,然而我今天能收到cpu利用率达到50%的报警提示,显然不正常。我今天收到了阿里云云监控配置的报警提醒短信之后,由于我知道不是太重要的业务,不涉及支付,不影响客户利益,因此我是等了一会还没有发现恢复,才去看了下服务器。果然,我预料的问题:有爬虫爬取我的一个列表页!


我今天发现这个爬虫过程很简单:阿里云云服务器配置的CPU监控,发来了短信实时告知我CPU异常指标。

日志分析结果:125.211.26.7这个IP,在17点38分开始连续访问我的某列表页面,截止我2小时后封停ip,访问了5000余次。再往前分析,此IP的访问断断续续,显然这个爬虫那时候正在被开发调试!

处理结果:这个爬虫,所爬取的页面本来就是公开的,因此如果他不是因为密集访问拉升我cpu利用率,我是懒得去“封IP”的。封IP的行为本身不够合理,我之前也在博客中提过封IP的误伤范围。

防御建议:根据业务安全需求,进行代码限制是否公开权限,单用户请求频率;根据业务特征,决定是否使用第三方安全工具进行IP限制频率;根据业务公开性质,决定是否使用CDN故意允许爬取数据。


总结下,入门级运维人员应该具备的能力:

1,对服务器配置合理的监控。

这里推荐使用阿里云云监控服务,免费10条配置。不过我这次收到的短信不是这个通知,而是云服务器ECS自带的监控项目通知,每个月免费1000条报警短信。

2,基本的分析能力

先查看系统综合资源使用率!比如CPU、内存、数据库IO,这里往往是最基本的分析入口

3,日志分析能力

稍微像样点的系统,都会有自己的系统日志,因此要把日志功能合理用起来,免得毫无头绪没法溯源!有了日志,下一步就是学会使用日志,对日志进行分析可以判断出报警原因。

4,一定的应对能力

这个要求稍微高了点,很多人面对攻击旺旺临时抱佛脚找度娘,当然这样做也是可以应付下的。不过更推荐大家多参考他人资料进行学习,因为一个人的运维经历往往没有那么丰富。比如说,不是所有站长都经历过被DDOS攻击。其实这个意义我之前也在博客中提过,来了DDOS攻击我还“暗自高兴”,就是因为这个经历的宝贵!


原文地址: https://www.opengps.cn/Blog/View.aspx?id=501 文章的更新编辑依此链接为准。欢迎关注源站原创文章!

评论

2019/10/21 10:14:59, 219.148.170.*说:
写的真好,这么好的博客没人评论,可惜了
【回复】现在博客板块的总访问量每天还停留在几百人的水平,能看完的可能只有几个人,所以评论不多。
再说这个文章是我昨天刚写的,你的效率不错啊!
2019/10/24 10:48:23, 116.5.29.*说:
看完了,就是没看懂
【回复】换句话说,目前取决于对方是否追溯
2019/12/16 10:25:18, 183.12.50.*说:
看完了,本来不打算回复的,,其实能看完的人应该还是有小半数的,能回复的确实就只有几个了
【回复】感谢关注。
个人博客其实本来就没多少访问量,我的站点访客每天过千人似乎已经算多的。^_^

发表评论:

用于接收作者回复信息
点击更换验证码 - openGPS提示

AD