Nutch相关框架视频教程
第一讲
1、 通过nutch,诞生了hadoop、tika、gora。
2、 nutch通过ivy来进行依赖管理(1.2之后)。
3、 nutch是使用svn进行源代码管理的。
4、 lucene、nutch、hadoop,在搜索界相当有名。
5、 ant构建之后,生成runtime文件夹,该文件夹下面有deploylocal文件夹,分别代表了nutch的两种运行方式。
6、 nutch和hadoop是通过什么连接起来的?通过nutch脚本。通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。
7、 nutch入门重点在于分析nutch脚本文件。
第二讲
1、 git来作为分布式版本控制工具,github作为server。提供免费的私有库。
2、 nutch的提高在于研读l文件中的每一个配置项的实际含义(需要结合源代码理解)。
3、 定制开发nutch的入门方法是研读l文件。
4、 命令:
apt-get install subversion
svn co /repos/asf/nutch/tags/release-1.6/
cd release-1.6
apt-get install ant
ant
cd runtime/local
mkdir urls
vi 并输入blog.tianya
nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &
vi release-1.6/l 增加http.agent.name配置
cd ../../release-1.6
ant
cd runtime/local
nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &
删除报错的文件夹
视频教程免费nohup bin/nutch crawl urls -dir data -depth 1 -threads 100 &
第三讲
1、 nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么?
2、 命令:
crawldb
bin/nutch | grep read
bin/nutch readdb data/crawldb -stats
bin/nutch  readdb data/crawldb -dump data/crawldb/crawldb_dump
bin/nutch readdb data/crawldb -url 4008209999.tianyaclub/
bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN
bin/nutch readdb data/crawldb -topN 10  data/crawldb/crawldb_topN_m 1
segments
crawl_generate:
bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nocontent -nofetch -noparse -noparsedata –noparsetext
crawl_fetch:
bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nocontent -nogenerate -noparse -noparsedata –noparsetext
content:
bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nofetch  -nogenerate -noparse -noparsedata –noparsetext
crawl_parse:
bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nofetch  -nogenerate -nocontent –noparsedata –noparsetext
parse_data:
bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nofetch  -nogenerate -nocontent -noparse –noparsetext
parse_text:
bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump -nofetch  -nogenerate -nocontent -noparse -noparsedata
全部:
bin/nutch readseg -dump data/segments/20130325042858 data/segments/20130325042858_dump
segments
bin/nutch readseg -list -dir data/segments
bin/nutch readseg -list data/segments/20130325043023
bin/nutch readseg -get  data/segments/20130325042858 blog.tianya/
linkdb
bin/nutch readlinkdb data/linkdb -url 4008209999.tianyaclub/
bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump
第四讲
1、 深入分析nutch的抓取周期
inject
generate -> fetch -> parse ->updatedb
2、 3大merge和3大read命令阐释
bin/nutch | grep merge
bin/nutch | grep read
bin/nutch mergesegs data/segments_all -dir  data/segments
3、 反转链接
bin/nutch invertlinks data/linkdb -dir data/segments
4、 解析页面
bin/nutch parsechecker
第五讲
1、 域统计
bin/nutch domainstats data2/crawldb/current host host
bin/nutch domainstats data2/crawldb/current domain domain
bin/nutch domainstats data2/crawldb/current suffix suffix
bin/nutch domainstats data2/crawldb/current tld tld
2、webgraph
bin/nutch webgraph -segmentDir data2/segments -webgraphdb data2/webgraphdb
有相同inlinks的URL,只输出topn
bin/nutch nodedumper -inlinks -output inlinks -topn 1 -webgraphdb data2/webgraphdb
有相同outlinks的URL,只输出topn
bin/nutch nodedumper -outlinks  -output outlinks -topn 1 -webgraphdb data2/webgraphdb
有相同scores的URL,只输出topn条(初始分值全为0)
bin/nutch nodedumper -scores  -output scores -topn 1 -webgraphdb data2/webgraphdb
计算URL分值
bin/nutch linkrank  -webgraphdb data2/webgraphdb
再次查看分值
bin/nutch nodedumper -scores  -output scores –topn 1 -webgraphdb data2/webgraphdb
对结果进行分组,取最大值或是连加和(topn参数不参与)
bin/nutch nodedumper -group domain sum -inlinks -output inlinks_group_sum -webgraphdb data2/webgraphdb
bin/nutch nodedumper -group domain max -inlinks -output inlinks_group_max -webgraphdb data2/webgraphdb
    对url进行分组,分组方式可选择为host或是domain,对同一组的url执行topn限制,对执行了topn限制的url集合执行max或是sum操作,max和sum所针对的排序值是3种方式之一inlinks、outlinks以及scores。
第六讲
1、注入分值
bin/nutch readdb data2/crawldb -dump crawldb_dump
cat crawldb_dump/* | grep Score | sort | uniq