欢迎来到智连IP官方网站!

联系热线:400-998-9776 转3网站地图

针对代理ip使用两种举例

发布时间:2019-12-11 16:56 阅读: 来源:代理ip

  针对代理ip使用两种举例!为便于理解,通过以下两种代理分类方式举例说明如下:

  第一种分类方式:在把所有代理IP均对各个目标网站(选取目标网站作为指定网站)分别进行访问测试,获取各个代理IP对各个目标网站的响应速度,然后针对一个目标网站,根据响应速度分别对各个代理IP进行分类,比如,速度在8-10之间的代理IP定义为优质 IP,速度4-7之间的代理IP地址定义为普通IP,速度3以下的代理IP定义为劣质IP。可以知道的是,针对不同的目标网站会对应有不同的分类,这是因为,本方案是采用这些代理IP爬取这些目标网站数据的,而目标网站的数量有限,且往往一段时间固定不变,因此针对各个目标网站的响应速度进行分类,更有利于在实际使用过程中有针对性的选取代理IP。

针对代理ip使用两种举例

  第二种分类方式:在爬取代理IP的同时,获取这些代理IP的隐匿属性。隐匿属性包括高匿和透明,高匿代理IP是指不容易被目标网站反向得知真实地址的代理IP、透明代理 IP是指容易被目标网站反向得知真实地址的代理IP。代理IP的隐匿属性可以由代理IP的来源网站提供。在分类时,同样可以将IP地址池中的代理IP分为高匿IP和透明IP两种。

  优选地,IP地址池中的各个代理IP各属性项的属性值可以以结构化的形式存储的数据库中的一张表里,包括IP所在地、响应速度、过滤能力等等,都作为表中的一个字段。对响应速度、过滤能力等较模糊的字段进行量化,比如对响应速度来说,响应速度范围定义为 0-10,10代表响应速度最快,以此来判断每个代理IP的响应速度(可向指定网站以代理IP发送请求,根据请求响应时间来判断响应速度)。具体地,也可以将IP地址池中的各个代理IP 以Mysql数据库的格式进行存储,以便于后续进行IP地址的查询和管理。

  进一步地,还可以定时检测IP地址池中的代理IP的有效性,利用代理ip请求指定网站,若该指定网站反馈响应消息,则确定该代理IP为有效的代理IP,反之,则确定该代理 IP为失效的代理IP。根据确定的结果,将IP地址池中的失效代理IP及时清理掉,以保持IP地址池的可用性。

  另外,对于IP地址池,服务器还可以不断扩大IP地址池的容量,即增加IP地址池中的代理IP数量,这样可以使得IP地址池的实用性更高。从筛选出的所述各个代理IP中选取一个代理IP; 可以理解的是,可以认为筛选出的所述各个代理IP均是适用于当前的目标网站的,因此,从中选取的一个代理IP,同样适用于当前目标网站。

  进一步地,如图3所示,步骤104可以包括:按照预设规则对筛选出的所述各个代理IP进行排序,组成代理IP列表;选取所述代理IP列表中排行第一的代理IP;对于上述步骤301,可以采用以下两种方式(方式A和方式B)中的任一种对筛选出的所述各个代理IP进行排序:

  方式A:按照确定的所述IP分类预先指定的代理IP的属性项对筛选出的所述各个代理IP进行排序,组成代理IP列表,所述属性项包括响应速度、过滤能力或隐匿属性。可以理解的是,服务器可以预先设定各个IP分类指定的代理IP的属性项,一般来说,指定的属性项代表该IP分类所最关心、最重视的一项属性。例如,某个“深圳市”的IP分类预先指定的属性项为“响应速度”,因此,根据筛选出的各个代理IP的各自的响应速度从快到慢对这些代理IP进行排序,排序后组成该代理IP列表。方式A的好处是,可以使得响应速度最快的代理 IP优先被选取,然后采用该响应速度最快的代理IP访问目标网站并爬取数据,提高爬取数据的效率。

  方式B:对筛选出的所述各个代理IP进行随机排序,组成代理IP列表。方式B的好处在于,列表中的各个代理IP的顺序是随机的,不存在固定规律,在采用代理IP访问目标网站时,更不容易被目标网站察觉而拉入黑名单。

  对于上述步骤302,在组成代理IP列表之后,选取该代理IP列表中排行第一的代理IP。采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。在选取出代理IP之后,即可采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。进一步地,为了进一步提高代理IP的安全性,减少目标网站察觉代理IP、拉入黑名单的可能性,本实施例还可以采用切换代理IP的方式来实现。具体地,采用下述方式一和方式二中的任一种方式处理:

  方式一:在执行本次数据爬取任务时,每间隔预设时长从筛选出的所述各个代理 IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务。比如,每十分钟重新选取另一个本次数据爬取任务中未被选取过的代理IP,切换重新选取的代理IP来访问目标网站,可以减少目标网站监测到服务器的爬取动作的可能性。

  方式二:在执行本次数据爬取任务时,在每爬取预设数据量后从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务。比如,针对一个目标网站爬取数据时,可以每爬取1G的数据后,重新选取另一个本次数据爬取任务中未被选取过的代理IP,切换重新选取的代理IP来访问目标网站,也可以减少目标网站监测到服务器的爬取动作的可能性。

  需要注意的是,在实际应用中,上述方式一和方式二可以单独采用,也可以结合在一起采用,本实施例不作限定。另外,对于上述方式一和/或方式二,若本实施例在之前将筛选出的所述各个代理 IP组成了代理IP列表,则在方式一和/或方式二的步骤中,所述从筛选出的所述各个代理IP 中选取一个未被选取过的代理IP作为替换代理IP具体为:从所述代理IP列表中选取下一个代理IP作为替换代理IP。

  本实施例中,首先,确定待爬取数据的目标网站;然后,根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;接着,从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;再之,从筛选出的所述各个代理IP中选取一个代理IP;最后,采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。在本实施例中,由于IP地址池中包括多个互不相同的代理IP,执行当前数据爬取任务时,从中筛选出合适的各个代理IP后,再选取一个代理IP进行访问和爬取数据,因此,不仅保证了爬取网站数据的代理IP来源的可靠性,而且避免了反复采用相同的代理IP爬取数据导致代理IP被封的情况,有利于爬取网站数据的顺利进行。

本文源自智连IP官方网站(www.zhilianip.com),转载请注明出处,否则追究法律责任!!

看过本文的人还看过……

热点文章推荐

分享: