要避免网络爬虫工作被中断,我们需要避免爬虫被封,处理好爬虫限制的问题。
最基本的方法就是隐藏真实的数据,只有不断的加载才能刷新信息。其他的就更不正常了。他们只会给你看一些信息,这些信息人们看不到,爬行动物也无能为力。比如CNKI,每次搜索能得到的内容非常有限。看起来没有什么好的解决办法,但是这样做的网站很少,因为这种方式实际上在某种程度上牺牲了一些真实的用户体验。
限制IP也是很多网站反爬的初衷。有的人随便写个循环就开始暴力爬行,真的会给网站服务器带来很大的负担。但是这种频繁的访问显然不会是真正的用户行为,所以你要果断封杀。这种情况下,可以遵守规则,放慢爬行速度,一次停几秒钟。当然,你可以通过不断改变ip来绕过这个限制。
标题限制应该是最常见也是最基本的反爬虫手段,主要是初步判断你操作的是不是真的浏览器。
这个通常很好解决。可以在浏览器中复制标题信息。值得注意的是,很多网站只需要userAgent信息就可以通过,但是有些网站需要验证一些其他信息,比如Zhihu,有些页面需要授权信息。因此,需要添加的标题需要尝试,并且可能需要引用和接受编码等信息。
了解爬虫限制原因之后,我们可以及时解决,甚至可以提前预防好。
本文源自智连IP官方网站(www.zhilianip.com),转载请注明出处,否则追究法律责任!!