python中如何提取列表中的关键词_python中怎么提取关键词--688IT编程网

python中如何提取列表中的关键词_python中怎么提取关键词简单的关键词提取

⽂章内容关键词的提取分为三⼤步：

(1) 分词

(2) 去停⽤词

(3) 关键词提取

分词⽅法有很多，我这⾥就选择常⽤的结巴jieba分词；去停⽤词，我⽤了⼀个停⽤词表。具体代码如下：import jieba

import jieba.analyse

#第⼀步：分词，这⾥使⽤结巴分词全模式

text = '''新闻，也叫消息，是指报纸、电台、电视台、互联⽹经常使⽤的记录社会、传播信息、反映时代的⼀种⽂体，\

具有真实性、时效性、简洁性、可读性、准确性的特点。\

新闻概念有⼴义与狭义之分。\

就其⼴义⽽⾔，除了发表于报刊、⼴播、电视上的评论与专⽂外的常⽤⽂本都属于新闻之列，包括消息、通讯、特写、速写

(有的将速写纳⼊特写之列)等等。\

狭义的新闻则专指消息，消息是⽤概括的叙述⽅式，⽐较简明扼要的⽂字，迅速及时地报道国内外新近发⽣的、有价值的的事实。\

新闻也分公众新闻和⼩道新闻等。每则新闻在结构上，⼀般包括标题、导语、主体、背景和结语五部分。\

前三者是主要部分，后⼆者是辅助部分。写法上主要是叙述，有时兼有议论、描写、评论等。

'''

fenci_text = jieba.cut(text)

#print("/ ".join(fenci_text))

#第⼆步：去停⽤词

#这⾥是有⼀个⽂件存放要改的⽂章，⼀个⽂件存放停⽤表，然后和停⽤表⾥的词⽐较，⼀样的就删掉，最后把结果存放在⼀个⽂件中stopwords = {}.fromkeys([ line.rstrip() for line in open('') ])

final = ""

for word in fenci_text:

if word not in stopwords:

if (word != "。" and word != "，") :

final = final + " " + word

print(final)

#第三步：提取关键词

a=act_tags(text, topK = 5, withWeight = True, allowPOS = ())

b=act_tags(text, topK = 6, allowPOS = ())

print(a)

print(b)

#text 为待提取的⽂本python怎么读的

# topK：返回⼏个 TF/IDF 权重最⼤的关键词，默认值为20。

# withWeight：是否⼀并返回关键词权重值，默认值为False。

# allowPOS：仅包括指定词性的词，默认值为空，即不进⾏筛选。

运⾏结果如下：新闻也叫消息是指报纸、电台、电视台、互联⽹经常使⽤的记录社会、传播信息、反映时代的⼀种⽂体具有真实性、时效性、简洁性、可读性、准确性的特点新闻概念有⼴义与狭义之分就其⼴义⽽⾔除了发表

于报刊、⼴播、电视上的评论与专⽂外的常⽤⽂本都属于新闻之列包括消息、通讯、特写、速写

( 有的将速写纳⼊特写之列 ) 等等狭义的新闻则专指消息消息是⽤概括的叙述⽅式⽐较简明扼要的⽂字

迅速及时地报道国内外新近发⽣的、有价值的的事实新闻也分公众新闻和⼩道新闻等每则新闻在结构上

⼀般包括标题、导语、主体、背景和结语五部分前三者是主要部分后⼆者是辅助部分写法上主要是叙述

有时兼有议论、描写、评论等

[('新闻', 0.4804811569680808), ('速写', 0.2121107125313131), ('消息', 0.20363211136040404),

('特写', 0.20023623445272729), ('狭义', 0.16168734917858588)]

['新闻', '速写', '消息', '特写', '狭义', '⼴义']

众多python培训视频，尽在python学习⽹，欢迎在线学习！

688IT编程网

python中如何提取列表中的关键词_python中怎么提取关键词

发表评论

推荐文章

Linux怎么直接执行PHP脚本文件

php文件写入或追加数据

php中实现文件上传的函数

php文件上传类程序代码

413 request entity too large 解决方法 -回复

热门文章

php中用来导入其他文件的语句

php获取文件后缀名的方法

创建php文件方法

国家电网公司电子商务平台常见问题

【2018-2019】别克英朗说明书-实用word文档 (12页)

诺基亚E71常见问题以及解决方法

HXD3型电力机车故障应急处理

卫星电视中星9号解密方法及节目参数,长期可用

硬盘U盘等启动奶瓶beini详细步骤教程

BT3使用教程

破解网通铁通电信封路由器的几种方法

手把手教你WPA2加密无线网络

教你如何破解搜索到的无线网络

Get清风OD入门系列图文详细教程、破解做辅助起步

java rar破解原理

同余方程在密码学中的应用与破解

无限网络解码

winrar破解方法

macOS终端中的文件加密和解密技巧

rar加密原理

最新文章

php中实现文件上传的函数

413 request entity too large 解决方法 -回复

php实现编辑和保存文件的方法

php 配置文件的用法 -回复

突破php网站上传文件大小限制

php(实现url重写)

标签列表