(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 103984753 A
(43)申请公布日 2014.08.13
(21)申请号 CN201410231745.9
(22)申请日 2014.05.28
(71)申请人 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
    地址 100080 北京市海淀区杏石口路65号西杉创意园西区11C楼东段1-4层西段1-4层
(72)发明人 黎小为 周东
(74)专利代理机构 北京邦信阳专利商标代理有限公司
    代理人 王昭林
(51)Int.CI
      G06F17/30
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种网络爬虫去重特征值的提取方法和装置
(57)摘要
      本发明公开了一种网络爬虫去重特征值的提取方法,包括:步骤一,根据目标网站的统一资源定位符URL域名和URL种子特征生成正则表达式;步骤二,从目标网站的URL地址中捕获与所述正则表达式匹配的字符串;步骤三,对所述字符串进行预定的格式转换,得到所述URL地址的去重特征值。本发明还提供一种网络爬虫去重特征值的提取装置。本发明适用于对不同URL链接指向相同页面的情况实现去重。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1.一种网络爬虫去重特征值的提取方法,其特征在于,包括:           
步骤一,根据目标网站的统一资源定位符URL域名和URL种子特            征生成正则表达式;           
步骤二,从目标网站的URL地址中捕获与所述正则表达式匹配的字            符串;           
步骤三,对所述字符串进行预定的格式转换,得到所述URL地址的            去重特征值。           
2.如权利要求1所述的网络爬虫去重特征值的提取方法,其特征            在于,在步骤三之前,
所述方法还包括:           
为步骤二中捕获的字符串添加第一预设编号和第二预设编号;其中            第一预设编号与目标网站相对应,第二预设编号与URL种子的类型相对            应。           
3.如权利要求2所述的网络爬虫去重特征值的提取方法,其特征            在于,所述URL种子的类型包括指向入口类型、指向列表类型和指向单            品类型。           
4.如权利要求1所述的网络爬虫去重特征值的提取方法,其特征            在于,在步骤三中,进行所述预定的格式转换时采用MD5第5版信息摘            要算法运算。            js正则表达式验证数字和字母
5.如权利要求1所述的网络爬虫去重特征值的提取方法,其特征            在于,在步骤三之后,所述方法还包括:           
查询去重特征值集合,判断所述URL地址的去重特征值是否存在于            所述去重特征值集合中,如果存在,放弃所述URL地址的去重特征值;            如果不存在,下载所述URL地址的页面,并将所述URL地址的去重特            征值添加至所述去重特征值集合中;其中所述去重特征值集合中的元素            为已完成页面下载的URL地址的去重特征值。           
6.如权利要求5所述的网络爬虫去重特征值的提取方法,其特征            在于,所述去重特征值集合存储于Redis存储系统中,其中以去重特征值                            为键,以对应的数据库自增ID为值。           
7.如权利要求1所述的网络爬虫去重特征值的提取方法,其特征            在于,在步骤一中,如果目标网站的URL种子特征为该URL种子中含            有商品库存量单位SKU信息,则在步骤二中,从所述URL地址中捕获            的字符串至少含有所述SKU信息。           
8.一种网络爬虫去重特征值的提取装置,其特征在于,包括:           
正则表达式生成模块,用于根据目标网站的统一资源定位符URL域            名和URL种子特征生成正则表达式;           
字符串捕获模块,用于从目标网站的URL地址中捕获与所述正则表            达式匹配的字符串;           
去重特征值提取模块,用于对所述字符串进行预定的格式转换,得            到所述URL地址的去重特征值。           
9.如权利要求8所述的网络爬虫去重特征值的提取装置,其特征            在于,所述装置还包括:           
字符串处理模块,用于为所述字符串捕获模块捕获的字符串添加第            一预设编号和第二预设编号;其中第一预设编号与目标网站相对应,第            二预设编号与URL种子的类型相对应。