欢迎来到智连IP官方网站!

联系热线:400-998-9776 转3网站地图

采用代理IP爬取网站数据的方法

发布时间:2019-12-11 16:41 阅读: 来源:代理ip

  采用代理IP爬取网站数据的方法!公开了一种采用代理IP爬取网站数据的方法、存储介质和服务器,用于解决爬取网站数据时代理IP容易被封的问题。本发明提供的方法包括:确定待爬取数据的目标网站;根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;从筛选出的所述各个代理IP中选取一个代理IP;采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。

采用代理IP爬取网站数据的方法

  1.一种采用代理IP爬取网站数据的方法,其特征在于,包括:确定待爬取数据的目标网站;

  根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;从筛选出的所述各个代理IP中选取一个代理IP;采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。

  2.根据权利要求1所述的采用代理IP爬取网站数据的方法,其特征在于,所述IP地址池中的各个代理IP通过以下步骤预先收集、归类:从提供代理IP的网站上爬取各个代理IP;采用爬取到的所述各个代理IP分别访问指定网站;记录访问指定网站时爬取到的所述各个代理IP的各属性项的属性值,所述属性项包括响应速度、过滤能力或隐匿属性;根据记录的属性值对爬取到的所述各个代理IP归类至预设的各个IP分类中。

  3.根据权利要求1所述的采用代理IP爬取网站数据的方法,其特征在于,还包括:

  在执行本次数据爬取任务时,每间隔预设时长从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务;或在执行本次数据爬取任务时,在每爬取预设数据量后从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务。

采用代理IP爬取网站数据的方法

  4.根据权利要求3所述的采用代理IP爬取网站数据的方法,其特征在于,所述从筛选出的所述各个代理IP中选取一个代理IP包括:

  按照预设规则对筛选出的所述各个代理IP进行排序,组成代理IP列表;选取所述代理IP列表中排行第一的代理IP;所述从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP具体为:从所述代理IP列表中选取下一个代理IP作为替换代理IP。

  5.根据权利要求4所述的采用代理IP爬取网站数据的方法,其特征在于,所述按照预设规则对筛选出的所述各个代理IP进行排序,组成代理IP列表包括:

  按照确定的所述IP分类预先指定的代理IP的属性项对筛选出的所述各个代理IP进行排序,组成代理IP列表,所述属性项包括响应速度、过滤能力或隐匿属性;或对筛选出的所述各个代理IP进行随机排序,组成代理IP列表。

  6.根据权利要求1至5中任一项所述的采用代理IP爬取网站数据的方法,其特征在于,在根据所述目标网站的属性信息确定适用于所述目标网站的IP分类之前,还包括:采用本地IP访问所述目标网站;若采用本地IP访问所述目标网站成功,则执行本次数据爬取任务;

  若采用本地IP访问所述目标网站失败,则执行所述根据所述目标网站的属性信息确定适用于所述目标网站的IP分类的步骤。

  7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述采用代理

  IP爬取网站数据的方法的步骤。

  8.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运

  行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:确定待爬取数据的目标网站;根据所述目标网站的属性信息确定适用于所述目标网站的IP分类,各个预设的IP分类预设有各自适用的网站的属性信息;

  从IP地址池中筛选出属于确定的所述IP分类的各个代理IP,所述IP地址池包括多个预先收集、归类、且互不相同的代理IP;从筛选出的所述各个代理IP中选取一个代理IP;采用选取出的代理IP访问所述目标网站,并执行本次数据爬取任务。

  9.根据权利要求8所述的服务器,其特征在于,所述IP地址池中的各个代理IP通过以下步骤预先收集、归类:从提供代理IP的网站上爬取各个代理IP;采用爬取到的所述各个代理IP分别访问指定网站;

  记录访问指定网站时爬取到的所述各个代理IP的各属性项的属性值,所述属性项包括响应速度、过滤能力或隐匿属性;根据记录的属性值对爬取到的所述各个代理IP归类至预设的各个IP分类中。

  10.根据权利要求8或9所述的服务器,其特征在于,还包括:

  在执行本次数据爬取任务时,每间隔预设时长从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务;或在执行本次数据爬取任务时,在每爬取预设数据量后从筛选出的所述各个代理IP中选取一个未被选取过的代理IP作为替换代理IP,然后采用所述替换代理IP重新访问所述目标网站,并继续执行本次数据爬取任务。

本文源自智连IP官方网站(www.zhilianip.com),转载请注明出处,否则追究法律责任!!

看过本文的人还看过……

热点文章推荐

分享: