1、Bootstrapping方法简介
Bootstrapping算法又叫自扩展技术,它是一种被广泛用于知识获取的机器学习技术。它是一种循序渐进的学习方法,只需要很小数量的种子,以此为基础,通过一次次的训练,把种子进行有效的扩充,最终达到需要的数据信息规模。
2、Bootstrapping算法的主要步骤
(1) 建立初始种子集;
(2) 根据种子集,在抽取一定窗口大小的上下文模式,建立候选模式集;
(3) 利用模式匹配识别样例,构成候选实体名集合。将步骤(2)所得的模式分别与原模式进行匹配,识别出样例,构成候选集合。
(4) 利用一定的标准评价和选择模式和样例,分别计算和样例的信息熵增益,然后进行排序,选择满足一定要求的模式加入最终可用模式集,选择满足一定条件的样例加入种子集。
(5) 重复步骤(2)-(4),直到满足一定的迭代次数或者不再有新的样例被识别。
3 相关概念
(1) 上下文模式bootstrap 5
它是指文本中表达关系和事件信息的重复出现的特定语言表达形式,可以按照特定的规则通过模式匹配,触发抽取特定信息。上下文模式是由项级成的有有序序列,每个项对应于一个词或者词组的集合。
(2) 模式匹配
模式匹配是指系统将输入的句子同有效模式进行匹配,根据匹配成功的模式,得到相应的解释。
(3) 样例
样例是在Bootstrapping迭代过程中,经过模式匹配后,抽取出来的词语。