爬虫的IP地址受限问题的解决方法!在互联上抓取用户的信用数据是信用评级的重要手段,例如从支付宝网站抓取的交易记录就能从侧面反映出用户的经济实力。但在抓取这些信息时也遇到了人为设置的技术障碍。有些网站为了防止爬虫抓取信息,做了IP限制。例如限定单个IP在每分钟内只能访问100次,那么一台爬虫服务器在每分钟内只能发起100次网络请求,当发起第101个请求时则会被目标服务器拒绝。,如何突破限制呢,答案是多IP爬虫。
通过多IP爬虫,又分为以下几种形式:
1、如果是局域网,带路由器的,第一种方法可能不好用。这个时候可以模拟登陆路由器,控制路由器重新拨号,换IP,这其实是一种折中的办法,曲线救国。
2、通过ADSL拨号换IP。每拨一次就会有一个新IP,较好解决IP单一问题。
3、代理IP,利用购买的或者网上抓取的免费代理IP,实现多IP爬虫,这种形式是最常见的。
4、分布式爬虫。采用多个服务器、多个IP、多个slave爬虫同时运行,由master负责调度。效率较高,属于大型分布式抓取,一般用redis分布式抓取。
本文源自智连IP官方网站(www.zhilianip.com),转载请注明出处,否则追究法律责任!!