spss可以关键词词频分析吗_词频分析研究的现状、⽅法及⼯
具,你值得拥有
今天主要跟⼤家介绍词频分析研究现状、⽅法及⼯具。
词频分析是什么呢?词频分析(Word Frequency Analysis)是对⽂献正⽂中重要词汇出现的次数进⾏统计与分析,是⽂本挖掘的重要⼿段。它是⽂献计量学中传统的和具有代表性的⼀种内容分析⽅法,基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势。
词频分析使⽤现状如何?以中国知⽹全⽂数据库(期刊)为检索对象,以“篇名”为检索条件,在617篇论⽂题⽬中出现“词频”⼆字,其中206篇核⼼期刊;如果以“主题”为检索条件,则有3423条⽂献以“词频”为主题开展了研究,其中1722篇在核⼼期刊发表。
由图可知,将“词频”分析⼯具来队研究对象进⾏分析,⼀直都处于增长态势。说明有越多越多的论⽂开始基于词频分析来开展研究⼯作。
由上图可知,以“词频”为主题的研究涉及多个学科,其中图书情报与数字图书馆、计算机软件及计算机应⽤这两个学科⽅向对“词频”主题的研究较为关注;中国语⾔⽂学、外国语⾔⽂学、⼼理学、新闻与传媒、互联⽹技术、⾼等教育、教育理论与教育管理等学科⽅向次之;职业教育、管理学、中医学等其他
学科零星涉及“词频”相关研究主题。
⽬前,有很多分词软件默认使⽤TF-IDF技术,后⽂介绍的⼏款软件在⼀定程度上应⽤了该技术。
SCWS是Hightman开发的⼀套基于词频词典的机械中⽂分词引擎,它能将⼀整段的汉字基本正确的切分成词。它采⽤的是采集的词频词典,并辅以⼀定的专有名称、⼈名、地名、数字年代等规则识别来达到基本分词,经⼩范围测试⼤概准确率在 90-95%之间,已能基本满⾜⼀些⼩型搜索引擎、关键字提取等场合运⽤,⽬前,该技术主要⽤于⽹站全⽂索引领域。⽹站⽤的多些。
ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),是中国科学院计算技术研究所在多年研究⼯作积累的基础上,研制出的汉语词法分析系统。该系统主要功能包括中⽂分词、词性标注、命名实体识别、新词识别,同时还⽀持⽤户词典。感觉很⽜,不好⽤。
TF-IDF其实⼀种算法;⽽SCWS与ICTCLAS是两种中⽂词频分析⽅法。很多词频⼯具软件,都是基于TF-IDF算法来⼯作的。接下来我们简单介绍⼏款软件的使⽤。
MyZiCiFreq字词频率统计⼯具,这个⼯具⽐较简单。
该软件可以把⽂章中出现的每个字或者出现的所有的词的次数和百分⽐都统计出来,⽀持导出。语⽂教师和汉语⾔⽂学类研究者,可以使⽤该⼯具对学⽣作⽂或某些专著进⾏分析。just so so。MyZiCiFr
eq字词频率统计⼯具不需要注册,不需要安装,使⽤起来⾮常⽅便,它使⽤的分词算法在⽹络上没有搜到相关介绍,不建议在学术论⽂的写作过程中使⽤该软件。没事玩玩就⾏。
ROST WordParser,是由武汉⼤学沈阳博⼠开发,⽐较容易上⼿。
⾸先,打开待分析的⽂档;然后,选择分词按钮,会⾃动对⽂档进⾏分词;之后,再打开词频分析窗⼝;最后,点词频分析就可以统计词频啦。但是这最后⼀步会报⼀个错误,这个错误主要由于写⼊⽂件引起的,程序在设计的时候保存路径有问题,少了⼀个“\”,导致⽣成的词频统计数据⽂件没有办法保存,不过这个并不影响使⽤。点击OK按钮之后,可以直接复制词频统计的数据,然后粘贴到Excel中直接使⽤。
该软件是内测版本,后期被整合到ROST CM6中。⽬前,不论ROST WordParser,还是ROST CM6都已经停⽌更新。虽然这两款软件在分词的准确性⽅⾯受到学术界的质疑,但在⼀些研究论⽂中却依然可以看到这两款软件的⾝影。
关于这款软件能否在学术论⽂中使⽤,个⼈认为要看研究的领域,如果在计算机研究领域或者在图书情报研究领域使⽤这两款软件来写论⽂,可能会受到质疑,但是在教育类、语⾔类、⽂学类等对分词准确性要求不⾼,或者对发现新词没有过⾼要求的情况下,还是可以尝试使⽤这两款软件,特别是ROST CM6在不少学术论⽂中被引⽤。
刚发的这个是Rost CM6截图。利⽤ROST CM6 进⾏词频分词之前,⾸先,要对⽂本⽂档(txt⽂档)进⾏分词,然后,再进⾏词频分析。ROST CM 6软件功能⽐较丰富,可以实现微博分析、聊天分析、全⽹分析、⽹站分析、浏览分析、分词、词频统计、英⽂词频统计、流量分析、聚类分析等⼀系列⽂本分析。⽬前由于该软件平台已经停⽌更新,所以部分需要联机操作的功能已经失效。但是分词与词频统计功能尚能使⽤,此外,还有部分单机功能依然可以使⽤。
下⾯来说说详细步骤和流程。
选择分词菜单之后,会弹出以上对话框。第⼀个选项⽤来选择需要分词的⽂本⽂件,点击右侧按钮浏览到待分词的⽂件。第⼆个选项⽤来设置分词⽂件保存位置,这⾥系统会默认保存在软件⽬录下。第三个选项是⽤来选择⾃定义词表的,这个⾃定义词表需要⾃⼰建⽴,可以将⼀些分词系统⽆法识别的专业词汇以⽂本⽂件形式保存,然后通过点击右侧按钮将⾃定义词表加⼊分词系统中。如果不需要指定⾃定义词表,可以默认使⽤ROSTCM6\user\⽬录下的⽂件中的词作为⾃定义词表。有时候为了省事,可以直接在这个⽂件之后,追加我们需要添加的新词,每次添加完新词,记得重启⼀下该软件。以上三个选项设置完成之后,单击确定按钮就可以进⾏分词啦,分词成功之后会弹出⼀个⽂件,可以将这个⽂件直接关闭,或者另存。不论怎样,关键确认记住分词后的⽂件保存位置。
成功分词之后,我们开始词频统计,打开词频统计的菜单之后,跳出以下对话框。
根据图上提⽰,进⾏操作即可。(注意:需要过滤的词表与⾃定义词表类似,系统均有默认,可以在系统⽂件基础上添加⾃⼰的过滤词。可在⼯具/⾃定义⽂件 中到过滤词表与⾃定义词表。)如果不出什么意外,点击确定之后,分词结果会保存到默认位置,然后弹出⼀个⽂本⽂件,这个⽂件可以另存,也可以直接关闭。
拿到词频统计数据之后,我们就可以围绕⾃⼰研究领域展开想象,开始探索发现之旅。更多关于ROST CM6的使⽤说明,请参见ROST CM6 使⽤说明(该⽂档已经归整理到资源包中了)。
接下来介绍⼀个简单的⼩⼯具:词频分析⼯具@Excel⼤全
这个⼯具主要是利⽤SCWS分词引擎所开发的⼀个Excel版的轻量级的在线词频统计分析⼯具,可以对⽂本⽂档中的中英⽂⽂字内容进⾏快速语义分词,统计词汇的出现频次,进⾏TF-IDF排名,并可显⽰词语的词性。
它还有⼀个优点,就是⽣成的词频数据,直接存在excel当中,⾮常便于统计与分析。但缺点是,此⼯具需要联⽹,⽽且还需要启⽤宏。网站流量统计分析工具
刚刚介绍的⼯具,都是单纯的词频分析⼯具,没有什么难度。⼀般如果要发学术论⽂,其实还是需要⽤到更多的⼯具,⽐如Bibexcel、CiteSpace和SATI等其他共词分析⼯具。这些⼯具都是以词频分析为基础。
⼤家有时间慢慢研究,这些⼯具都是可以使⽤的。Rost CM6 使⽤的时候,有时候联⽹会尝试连接远程服务器,呈现卡死状态,这个时候,你断⽹⽤就可以了。
不过这些⼯具⼀般在学术论⽂中的⽤的⽐较少。⼤家可以在平时研究中作为辅助⼯具来⽤。真正依靠词频分析发论⽂现在远远不够,还是需要学习共词分析、共引分析、社会⽹络分析等⽐较深⼊⼀点的研究⼯具。因为词频分析只能看个频次,看不出词与词之间的关系远近。