代理ip软件爬取数据步骤与实施:确定待爬取数据的目标网站, 根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP 分类预设有各自适用的网站的属性信息;从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;从筛选出的所述各个代理IP中选取一个代理IP;
采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,首先,确定待爬取数据的目标网站;然后,根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;接着,从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;再之,从筛选出的所述各个代理IP中选取一个代理IP;最后,采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。在本发明实施例中,由于IP地址池中包括多个互不相同的代理IP,执行当前数据爬取任务时,从中筛选出合适的各个代理IP后,再选取一个代理IP进行访问和爬取数据,因此,不仅保证了爬取网站数据的代理IP来源的可靠性,而且避免了反复采用相同的代理IP爬取数据导致代理IP被封的情况,有利于爬取网站数据的顺利进行。
[0026] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0027] 图1为本发明实施例中一种采用代理IP爬取网站数据的方法一个实施例流程图; [0028] 图2为本发明实施例中一种采用代理IP爬取网站数据的方法在一个应用场景下预先收集归类代理IP的流程示意图;
[0029] 图3为本发明实施例中一种采用代理IP爬取网站数据的方法步骤104在一个应用场景下的流程示意图;
[0030] 图4为本发明实施例中一种采用代理IP爬取网站数据的装置一个实施例结构图;
[0031] 图5为本发明一实施例提供的服务器的示意图。
具体实施方式
[0032] 本发明实施例提供了一种采用代理IP爬取网站数据的方法、存储介质和服务器,用于解决爬取网站数据时代理IP容易被封的问题。
[0033] 为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0034] 请参阅图1,本发明实施例中一种采用代理IP爬取网站数据的方法一个实施例包括:
[0035] 101、确定待爬取数据的目标网站;
[0036] 本实施例的执行主体可以是终端设备或者服务器,优选地,本实施例中的执行主体为一服务器。
[0037] 可以理解的是,服务器在爬取数据之前,首先需要确定本次数据爬取任务所针对的网站,即上述的目标网站。
[0038] 优选地,在执行下述步骤102之前,服务器可以先采用本地IP尝试访问该目标网站,如果失败(比如本地IP已被拉黑名单),再采用代理IP进行访问,这样不仅更加方便,而且有利于保护代理IP的有效性。具体包括:首先,采用本地IP访问所述目标网站;若采用本地IP访问所述目标网站成功,则执行本次数据爬取任务;若采用本地IP访问所述目标网站失败,则执行下述步骤102。
[0039] 102、根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;
[0040] 可以理解的是,不同的目标网站一般具有不同的属性信息,比如,某个网站的服务器地址在广东省深圳市,另一个网站的服务器地址在江苏省南京市。可知,对这两个网站进行访问时,若采用的代理IP的所在地在深圳市,则该代理IP访问前一个网站的响应速度往往远快于后一个网站的响应速度。
[0041] 因此,服务器可以预先对各个代理IP进行分类,具体分类方法在下述内容描述。分类后,服务器上预设有各个IP分类,这些IP分类预先设置有各自使用的网站的属性信息,以便于在确定IP分类时,可以根据网站的属性信息快速筛选出使用的IP分类。举例说明,可以某个IP分类(记为分类A)预设的属性信息为“深圳市”,即表示该分类A适用于服务器地址位于深圳市的目标网站,因此,当该目标网站的属性信息中记载其服务器地址为“广东省深圳市”时,服务器即可确定该分类A为适用于该目标网站的IP分类。
[0042] 103、从IP地址池中筛选出属于确定的所述IP分类的各个代理IP;
[0043] 需要说明的是,服务器上设有IP地址池,该IP地址池包括多个预先收集、归类、且互不相同的代理IP,当需要筛选代理IP时,从IP地址池中筛选出属于上述步骤102确定的IP 分类的各个代理IP。
[0044] 进一步地,如图2所示,所述IP地址池中的各个代理IP可以通过以下步骤预先收集、归类:
[0045] 201、从提供代理IP的网站上爬取各个代理IP;
[0046] 202、采用爬取到的所述各个代理IP分别访问指定网站;
[0047] 203、记录访问指定网站时爬取到的所述各个代理IP的各属性项的属性值,所述属性项包括响应速度、过滤能力或隐匿属性;
[0048] 204、根据记录的属性值对爬取到的所述各个代理IP归类至预设的各个IP分类中。
[0049] 对于上述步骤201,在目前市面上有许多提供代理IP的网站,尤其是提供免费代理 IP的网站,这些网站的代理IP一般都可以正常使用,因此,服务器可以从这些网站上爬取到各个代理IP,完成代理IP的收集工作。具体地,可以采用scrapy框架+xpath爬取各个网站提供的免费代理IP。
本文源自智连IP官方网站(www.zhilianip.com),转载请注明出处,否则追究法律责任!!