基于动态IP的网页正文获取方法!本提供一种基于动态IP的网页正文获取方法及装置。该方法包括对网络中的多个虚拟专用服务器vps对应的第一IP地址以及滑块代理服务器进行监控;若vps满足切换条件则指示vps 重新动态生成一个第二IP地址,将vps对应的第一IP地址切换为第二IP地址;若滑块代理服务器满足不可用条件则将滑块代理服务器标记为不可用,以使爬虫服务器通过第二IP地址和可用的滑块代理服务器对进行正文获取。装置用于执行上述方法。
本发明通过在动态生成第二IP地址后对第二IP地址的可用性进行校验,若可用则将第一IP地址切换为第二IP地址,从而避免了生成的第二IP地址不能用于待爬取网页进行正文爬取的情况,提高了爬取效率。
1.一种基于动态IP的网页正文获取方法,其特征在于,包括:
对网络中爬虫服务器对应的多个虚拟专用服务器vps对应的第一IP地址,以及滑块代理服务器进行监控;若所述vps满足切换条件,则指示所述vps重新动态生成一个第二IP地址,将所述vps对应的所述第一IP地址切换为所述第二IP地址;
若所述滑块代理服务器满足不可用条件,则将所述滑块代理服务器标记为不可用,以使所述爬虫服务器通过所述第二IP地址和可用的滑块代理服务器对网页的正文进行获取;其中,所述切换条件包括以下任意一项或其组合:所述vps对应的所述第一IP地址的使用时长超过第一预设时长;所述vps对应的所述第一IP地址的使用次数超过第一预设次数;
在通过所述第一IP地址进行获取网页内容时,出现操作频繁的提示信息;所述不可用条件包括以下任意一项或其组合:所述滑块代理服务器的使用次数超过第二预设次数;所述滑块代理服务器的使用时长超过第二预设时长;所述滑块代理服务器在进行验证时,进行了第三预设次数的过滤字符串操作。
2.根据权利要求1所述的方法,其特征在于,所述将所述vps对应的所述第一IP地址切换为所述第二IP地址,包括:根据待爬取网页信息,若判断获知所述第二IP地址为可用IP,则将所述vps对应的所述第一IP地址切换为所述第二IP地址。
3.根据权利要求1所述的方法,其特征在于,所述将所述vps对应的所述第一IP地址切换为所述第二IP地址,包括:若判断所述第二IP地址距当前时刻之前的预设时间段内没有被使用过,则将所述第一IP地址切换为所述第二IP地址。
4.根据权利要求1所述的方法,其特征在于,所述若所述滑块代理服务器满足不可用条件,则将所述滑块代理服务器标记为不可用,包括:若所述滑块代理服务器可用的个数超过预设阈值时,将滑动操作失败的滑块代理服务器标记为不可用。
5.根据权利要求1所述的方法,其特征在于,所述方法,还包括:配置不监控时间段,所述不监控时间段内不对所述vps和所述滑块代理服务器进行监控。
6.根据权利要求1所述的方法,其特征在于,所述方法,还包括:接收所述爬虫服务器发送的IP调用请求,所述IP调用请求包括待爬取的网页地址;根据所述网页地址以及所述切换条件为所述爬虫服务器分配可用IP地址,以使所述爬虫服务器根据所述可用IP地址爬取所述网页地址对应的待爬取网页。
7.根据权利要求1所述的方法,其特征在于,所述将所述vps对应的所述第一IP地址切换为所述第二IP地址,包括:基于WSGI接口将所述vps对应的所述第一IP地址切换为所述第二IP地址。
8.一种基于动态IP的网页正文获取装置,其特征在于,包括:监控模块,用于对网络中爬虫服务器对应的多个虚拟专用服务器vps对应的第一IP地址,以及滑块代理服务器进行监控;切换模块,用于若所述vps满足切换条件,则指示所述vps重新动态生成一个第二IP地址,将所述vps对应的所述第一IP地址切换为所述第二IP地址;不可用标注模块,用于若所述滑块代理服务器满足不可用条件,则将所述滑块代理服务器标记为不可用,以使所述爬虫服务器通过所述第二IP地址和可用的滑块代理服务器对网页的正文进行获取;
其中,所述切换条件包括以下任意一项或其组合:所述vps对应的所述第一IP地址的使用时长超过第一预设时长;所述vps对应的所述第一IP地址的使用次数超过第一预设次数;
在通过所述第一IP地址进行获取网页内容时,出现操作频繁的提示信息;所述不可用条件包括以下任意一项或其组合:所述滑块代理服务器的使用次数超过第二预设次数;所述滑块代理服务器的使用时长超过第二预设时长;所述滑块代理服务器在进行验证时,进行了第三预设次数的过滤字符串操作。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-7任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1-7任一项所述的方法。
本文源自智连IP官方网站(www.zhilianip.com),转载请注明出处,否则追究法律责任!!