ROST 内容挖掘 系统
ROST  Content Mining System
User Manual
Version 6.0
2010.9.23
武汉大学
www.fanpq
ROST 虚拟学习团队
hi.baidu/rostcm/blog/item/62a4b3fe1cbf69d3b58f31d7.html
目 录
一、功能性分析 (4)
1)分词 (4)
2)字频分析 (4)
3)英文词频分析 (4)
文件词频统计 (4)
剪切板词频统计 (5)
查看统计表格 (5)
查看大纲列表 (5)
描红超纲词 (5)
查看非词表 (6)
加密词表 (6)
打开词典目录 (6)
4)汉语频度分析 (6)
5)社会网络和语义网络分析 (6)
6)情感分析 (8)
7)流量分析 (9)
8)相似分析 (9)
9)网络环境分析 (10)
10) /IDF批量词频分析 (10)
11)聚类分析 (10)
12)分类分析 (11)
二、文本操作 (11)
1)字段抽取 (11)
2)一般性行处理...... (11)
3)基于正则的特定信息抽取 (12)
4)基于字段特征的行处理 (12)
5)基于辅助词的行抽取及处理 (12)
6)文本的替换和增补 (13)
三、 可视化 (14)
1)标签云 (14)
四、工具 (14)
1)剪贴板控制器 (14)
2)域名排名查询器 (15)
3)批量文件格式转换器 (15)
4)批量文件处理器 (16)
5)浏览网页文本实时抓取器 (17)
6)NetDraw (17)
7)ROST WebSpider (17)
8)调试用 (18)
9)程序目录 (19)
10)数据目录 (19)
11)第三方工具 (19)
12)自定义文件 (19)
五、聊天分析 (19)
六、全网分析 (20)
1)全网数据中的摘要或标题数据中的词语、机构的共现关系 (20)
2)情感分析 (20)
3)域名的批量流量分析 (20)
4)将网址列表载入到迅雷中进行下载 (20)
七、网站分析 (21)
1)获得网站数据 (21)
2)分析 (22)
八、浏览分析 (22)
九、微博分析 (23)
1)扫描数据 (23)
2)分析 (23)
十、期刊分析 (23)
一、功能性分析
(1)分词
点击功能性分析下拉列表框中的分词选项,打开分词窗口,在待处理文本框中载入待处理文件,如“虚拟学习团队2010‐8‐7.txt”,则系统按照程序目录下的User目录下的文档,自动在输出文件框中生成“虚拟学习团队2010‐8‐7_分词后.txt”文件,获得以空格分离的分词后文档,如果原来文档中有空格的位置保留空格。点击确定按钮,即可打开该文档。
如果需要自己增加一些词,则点击工具下拉列表框中的自定义文件→分词自定义词表,系统将自动在记事本中打开user目录下的文件,编辑后点击保存存盘,再次重新启动本软件,方可生效。
(2)字频分析
点击功能性分析下拉列表框中的字频分析选项,打开字频分析窗口,在待处理文件框中载入待处理文件,如“虚拟学习团队2010‐8‐7.txt”,则系统自动在输出文件框中生成“虚拟学习团队2010‐8‐7_字频.txt”文件,点击确定按钮,即可打开该文档。
(3)英文词频分析
文件词频统计
点击功能性分析下拉列表框中的英文词频分析选项, 打开ROST
英文词频统计和超纲单词分析窗口。点击文件菜单下的打开菜单项或点击工具栏上的打开按钮,打开要统计的英文文档,然后选择统计菜单下的统计文件词频菜单项或工具栏上的统计按钮,即可统计出文档的所有单词。点击单选按钮纲内,可统计该文档的纲内词;点击单选按钮超纲,可统计该文档中的超纲词。选择复选框全选,可全选表格所有单词;选择复选框归并单词变形,可将变形单词进行归并。
对统计出的单词,在表格上点击右键,弹出快捷菜单,可以将选择的词汇添加到常用词语表,或者将选择的词汇从常用词语表中删除。
要在文本框中高亮显示某单词,可以勾选该单词的检查框;如果取消勾选,则文本框中该单词恢复普通显示状态。
剪切板词频统计
如果要统计剪切板词频,则选择统计菜单下的统计剪切板词频菜单项,则剪切板上的单词会显示在打开文件框中,再点击工具栏上的统计按钮即可。
查看统计表格
点击查看菜单下的统计表格菜单项,即可查看空的统计表格。
查看大纲列表
点击查看菜单下的大纲列表菜单项,打开大纲列表窗口,即可查看大纲列表。如果要查看某大纲,双击该行即可。在大纲列表窗口,还可以自定义某个词汇表,方法是在大纲名称文本框中输入大纲名称,然后在大纲文件文本框中载入大纲文件,再点击添加按钮即可。
若要删除某词汇表,则选中该词汇表后,点击删除按钮即可。
描红超纲词
如果要查看所有勾选的超纲词汇在文章中的位置,则首先点击统计、然后选择超纲,再勾选全选,然后点击查看菜单中的描红选定的超纲的词汇即可。
查看非词表网站流量统计分析工具
非词表你不想统计的单词或者字符的列表,该文件位于程序目录下的dict子目录下的。要
查看非词表,点击工具菜单下的查看非词表即可。如果要启动非词表,则工具菜单下的点击启动非词表。
加密词表
如果要对词表加密,则点击工具菜单下的加密词表;如果要解密词表,则则点击工具菜单下的解密词表即可。
打开词典目录
点击工具菜单下的打开词典目录即可。
(4)汉语频度分析
点击功能性分析下拉列表框中的汉语词频分析选项,打开汉语词频统计窗口,在分词后待统计词频文件文本框中载入分词后的文件,如“虚拟学习团队2010‐8‐7_分词后.txt”,则系统自动载入过滤词表,并在输出文件文本框中生成词频统计文件“虚拟学习团队2010‐8‐7_分词后_词频.txt”。在归并词表文本框中载入归并词表,还可以对文档中的词进行归并。在保留词表文本框中载入保留词表,则可