(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 103020286 A
(43)申请公布日 2013.04.03
(21)申请号 CN201210580975.7数据库实例名是什么意思
(22)申请日 2012.12.27
(71)申请人 上海交通大学
    地址 200240 上海市闵行区东川路800号
(72)发明人 朱其立 张至先
(74)专利代理机构 上海汉声知识产权代理有限公司
    代理人 郭国中
(51)Int.CI
      G06F17/30
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      基于排名网站的互联网排行榜抓取系统
(57)摘要
      本发明公开了一种互联网排行榜抓取系统,包括将HTML格式的网页解析成为基于文件物件模型的树状数据结构(DOM Tree)的网页预处理模块;判断该网页是否为一个排名网页的标题识别模块;基于HTML标签路径的聚类分析的候选列表排行榜选取模块;基于内容匹配和网页布局的排行榜选取模块;以及排行榜内容后期处理模块。本发明可以针对互联网排行榜这种特殊的网络列表进行快速准确的自动提取,有效挖掘其潜在价值。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1.一种基于排名网站的互联网排行榜抓取系统,其特征在于,包括依次连接的网页预处理模块、网页标题识别模块、候选列表抓取模块、排行榜选取模块以及排行榜内容后期处理模块,候选列表抓取模块的输入为网页预处理模块和网页标题识别模块的输出,其中:
网页预处理模块,用于将HTML格式的输入网页解析成为基于文件物件模型的树状数据结构,以便提供给网页标题识别模块和候选列表抓取模块进行后续处理;
网页标题识别模块,用于对网页标题进行语法分析,然后用基于机器学习方法生成的模型进行分类,判断该网页是否为一个排名网页,其中:如果判断该网页为普通网页,则系统输出判断结果,中断退出;如果判断该网页为排名网页,则提取该网页中排行榜的领域、标准、
列表项个数和时间地点信息,并提供给候选列表抓取模块进行后续处理;
候选列表抓取模块,用于在网页预处理模块中得到的树状数据结构进行基于HTML标签路径的聚类分析,获得多个候选列表,候选列表的列表项个数应当与网页标题识别模块中提取到的列表项个数相同,如果没有合适的候选列表,则判定该排行榜抓取失败,系统输结果,中断退出,否则由排行榜选取模块进行后续处理;
排行榜选取模块,用于通过多种评价标准对多个候选列表进行打分,并选择得分最高的候选列表为该输入网页的排行榜列表,评价标准包括:网页标题的关联程度、在网页中的空间位置、规则模式匹配;
排行榜内容后期处理模块,用于对排行榜选取模块选取获得的排行榜内容进行进一步处理,将每一个列表项的实例名与其对应的属性特征来进行分离,最终得到一个关系数据表。
2.根据权利要求1所述的基于排名网站的互联网排行榜抓取系统,其特征在于,网页标题识别模块在对网页进行分类之前,对标题进行预处理,预处理具体为:用正则表达式匹配的方式,去掉标题中的次要部分,确定标题的主要部分;对主要部分进行英文词法分析,获得单词序列中每一个单词的词性和原型,并将单词、词性、原型构成特征表格。
3.根据权利要求2所述的基于排名网站的互联网排行榜抓取系统,其特征在于,网页标题识别模块包括分类器,分类器利用事先训练好的模型将对输入的特征表格进行分析,其结果为对输入单词序列对应的标注序列,其中K代表列表项的个数,F代表排行榜的领域,C表示排行榜的标准,对于分类结果的处理分为两种情况:如果标注序列中包含K,则说明输入网页为一个排名网页,则需要将结果整理为<个数,领域,标准,时间,地点>的五元组的形式,并触发候选列表抓取模块执行;否则判定该网页非排名网页,系统退出。
4.根据权利要求3所述的基于排名网站的互联网排行榜抓取系统,其特征在于,分类器的模型是基于条件随机域训练获得的。
5.根据权利要求1所述的基于排名网站的互联网排行榜抓取系统,其特征在于,HTML标签路径的含义为,在树状数据结构中,任意一个节点到根节点的路径,具体表示为路径中各个节点的HTML标签的连接;基于HTML标签路径的聚类分析由通过对网页中所有节点进行遍历,将具有相同标签路径的节点进行聚类,形成多个类,其中,包含K个节点的类即为候选的排行榜列表,K为网页标题识别模块中得到的排行榜列表项个数;如果没有到任何候选列表,则判定列表抓取失败,系统退出。
6.根据权利要求1所述的基于排名网站的互联网排行榜抓取系统,其特征在于,网页标题的关联程度,具体为:根据网页中排行榜所涉及的领域,得到该领域的全部或者部分实例,其中,具体对每一个候选列表L的计算公式为:
<Math><MathText>><mrow><mi>PScore</mi><mo>=</mo><mfrac><mn>1</mn><mi>K</mi></mfrac><munder><mi>Σ</mi><mrow><mi>n</mi><mo>∈</mo><mi>L</mi></mrow></munder><mfrac><mrow><mi>LMI</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow></mrow><mrow><mi>Len</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow></mrow></mfrac></mrow></math>></Math>
其中,PScore为网页标题的关联程度,n为列表L中的一个列表项,K为列表项个数,LMI(n)表示在列表项n中最长的实例的单词个数,Len(n)为列表项n中的单词总个数。
7.根据权利要求1所述的基于排名网站的互联网排行榜抓取系统,其特征在于,在网页中的空间位置,具体为:根据候选列表的字体大小和字符长度估算候选列表在网页中占据的大小,具体的计算公式为:
<Math><MathText>><mrow><mi>VScore</mi><mo>=</mo><munder><mi>Σ</mi><mrow><mi>n</mi><mo>∈</mo><mi>L</mi></mrow></munder><mi>Text</mi><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>*</mo><mi>Font</mi><msup><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mn>2</mn></msup></mrow></math>></Math>