jieba分词错误_结巴中文分词原理分析1--688IT编程网

jieba分词错误_结巴中⽂分词原理分析1

作者：⽩宁超，⼯学硕⼠，现⼯作于四川省计算机研究院，著有《⾃然语⾔处理理论与实战》⼀书，作者：机器学习和⾃然语⾔处理(ID：datathinks)

基于Python的中⽂分词 1 结巴中⽂分词 (1) 结巴中⽂分词的特点

1 ⽀持三种分词模式：

精确模式，试图将句⼦最精确地切开，适合⽂本分析；

全模式，把句⼦中所有的可以成词的词语都扫描出来, 速度⾮常快，但是不能解决歧义；

搜索引擎模式，在精确模式的基础上，对长词再次切分，提⾼召回率，适合⽤于搜索引擎分词。

2 ⽀持繁体分词

3 ⽀持⾃定义词典

4 MIT 授权协议

(2) 安装说明：代码对 Python 2/3 均兼容

全⾃动安装：easy_install jieba 或者 pip install jieba / pip3 install jieba

⼿动安装：将 jieba ⽬录放置于当前⽬录或者 site-packages ⽬录

通过 import jieba 来引⽤

算法：

基于前缀词典实现⾼效的词图扫描，⽣成句⼦中汉字所有可能成词情况所构成的有向⽆环图 (DAG)

采⽤了动态规划查最⼤概率路径, 出基于词频的最⼤切分组合

对于未登录词，采⽤了基于汉字成词能⼒的 HMM 模型，使⽤了 Viterbi 算法

(3) 主要分词功能

jieba.cut ⽅法接受三个输⼊参数: 需要分词的字符串；cut_all 参数⽤来控制是否采⽤全模式；HMM 参数⽤来控制是否使⽤ HMM 模型

jieba.cut_for_search ⽅法接受两个参数：需要分词的字符串；是否使⽤ HMM 模型。该⽅法适合⽤于搜索引擎构建倒排索引的分词，粒度⽐较细

待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输⼊ GBK 字符串，可能⽆法预料地错误解码成UTF-8

jieba.cut 以及 jieba.cut_for_search 返回的结构都是⼀个可迭代的 generator，可以使⽤ for 循环来获得分词后得到的每⼀个词语(unicode)

jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建⾃定义分词器，可⽤于同时使⽤不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

# encoding=utf-8

import jieba

seg_list = jieba.cut("我来到北京清华⼤学", cut_all=True)

print("Full Mode: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我来到北京清华⼤学", cut_all=False)

print("Default Mode: " + "/ ".join(seg_list)) # 精确模式

seg_list = jieba.cut("他来到了⽹易杭研⼤厦") # 默认是精确模式

print(", ".join(seg_list))

weight是什么词性

seg_list = jieba.cut_for_search("⼩明硕⼠毕业于中国科学院计算所，后在⽇本京都⼤学深造") # 搜索引擎模式

print(", ".join(seg_list))

输出结果

【全模式】: 我/ 来到/ 北京/ 清华/ 清华⼤学/ 华⼤/ ⼤学

【精确模式】: 我/ 来到/ 北京/ 清华⼤学

【新词识别】：他, 来到, 了, ⽹易, 杭研, ⼤厦 (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

【搜索引擎模式】：⼩明, 硕⼠, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在,

⽇本, 京都, ⼤学, ⽇本京都⼤学，深造

(4) 添加⾃定义词典

载⼊词典：

开发者可以指定⾃⼰⾃定义的词典，以便包含 jieba 词库⾥没有的词。虽然 jieba 有新词识别能⼒，但是⾃⾏添加新词可以保证更⾼的正确率

⽤法： jieba.load_userdict(file_name) # file_name 为⽂件类对象或⾃定义词典的路径

词典格式和⼀样，⼀个词占⼀⾏；每⼀⾏分三部分：词语、词频(可省略)、词性(可省略)，⽤空格隔开，顺序不可颠倒。

file_name 若为路径或⼆进制⽅式打开的⽂件，则⽂件必须为 UTF-8 编码。

词频省略时使⽤⾃动计算的能保证分出该词的词频。

例如：

云计算 5

凱特琳 nz

台中

更改分词器(默认为 jieba.dt)的 tmp_dir 和 cache_file 属性，可分别指定缓存⽂件所在的⽂件夹及其⽂件名，⽤于受限的⽂件系统。

范例：

1. 之前：李⼩福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / ⽅⾯ / 的 / 专家 /

2. 加载⾃定义词库后：　李⼩福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / ⽅⾯ / 的 / 专家 /

⾃定义词典：

云计算 5

李⼩福 2 nr

创新办 3 i

easy_install 3 eng

好⽤ 300

韩⽟赏鉴 3 nz

⼋⼀双⿅ 3 nz

台中

凱特琳 nz

Edu Trust认证 2000

⽤法⽰例：

#encoding=utf-8

from __future__ import print_function, unicode_literals

import sys

sys.path.append("../")

import jieba

jieba.load_userdict("")

import jieba.posseg as pseg

jieba.add_word('⽯墨烯')

jieba.add_word('凱特琳')

jieba.del_word('⾃定义词')

test_sent = (

"李⼩福是创新办主任也是云计算⽅⾯的专家; 什么是⼋⼀双⿅\n"

"例如我输⼊⼀个带“韩⽟赏鉴”的标题，在⾃定义词库中也增加了此词为N类\n"

"「台中」正確應該不會被切開。mac上可分出「⽯墨烯」；此時⼜可以分出來凱特琳了。"

)

words = jieba.cut(test_sent)

print('/'.join(words))

print("="*40)

result = pseg.cut(test_sent)

for w in result:

print(w.word, "/", w.flag, ", ", end=' ')

print("\n" + "="*40)

terms = jieba.cut('easy_install is great')

print('/'.join(terms))

terms = jieba.cut('python 的正则表达式是好⽤的')

print('/'.join(terms))

print("="*40)

# test frequency tune

testlist = [

('今天天⽓不错', ('今天', '天⽓')),

('如果放到post中将出错。', ('中', '将')),

('我们中出了⼀个叛徒', ('中', '出')),

]

for sent, seg in testlist:

print('/'.join(jieba.cut(sent, HMM=False)))

word = ''.join(seg)

print('%s Before: %s, After: %s' % (word, _FREQ(word), jieba.suggest_freq(seg, True))) print('/'.join(jieba.cut(sent, HMM=False)))

print("-"*40)　

调整词典：

使⽤ add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。

使⽤ suggest_freq(segment, tune=True) 可调节单个词语的词频，使其能(或不能)被分出来。

注意：⾃动计算的词频在使⽤ HMM 新词发现功能时可能⽆效。

代码⽰例：

>>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))

如果/放到/post/中将/出错/。

>>> jieba.suggest_freq(('中', '将'), True)

494

>>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))

如果/放到/post/中/将/出错/。

>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))

「/台/中/」/正确/应该/不会/被/切开

>>> jieba.suggest_freq('台中', True)

>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))

「/台中/」/正确/应该/不会/被/切开

688IT编程网

jieba分词错误_结巴中文分词原理分析1

发表评论

推荐文章

道歉信英语作文模板打破杯子

熊猫的性格英语作文

松香树脂酸和甲醛的Prins加成反应研究

react 父组件调用多个相同子组件中的某个组件的方法-概述说明以及解释...

react多条件对象数组去重-概述说明以及解释

热门文章

元素与化合物的区别

react递归遍历

react数组删除项的指令

基于JavaScript的React框架开发前端界面优化与调试

react 封装滚筒条自动滚动组件

react 树形表格拖拽排序

react注释

qwen react agent 例子-概述说明以及解释

react18 fiber结构effecttag -回复

2023年英语知识点必修

react将字符串转换成标签格式的方法_概述说明

光催化反应装置的内部结构

药物Lesinurad(雷西纳德、来司诺雷)合成检索总结报告

react native flatlist scrolltoindex 滚动到指定选项

How to deal with Difficult People

react.js的好的书 -回复

react项目文件结构

react-konva 基础结构

...oxygen furnace slag and hydrogen peroxide

北京成人本科学士学位词语用法和语法结构(五)_真题-无答案

最新文章

ant-design react table 合计-概述说明以及解释

taro 编译react-native 原理

react ant table 数组里面套数组

react-antd tree组件异步加载的数据oncheck方法 -回复

element-react 树形表格

react 相对路径

标签列表