调试了一阵nutch 1.3,很多问题弄不清,后来请教高手,说用nutch 1.2会解决很多问题;
下载nutch 1.2 的bin-zip文件,解压可看到.war文件,部署到Tomcat的WebApp目录下,重启Tomcat,使用
http://localhost:8080/nutch-1.2,可看到nutch-1.2的起始页面。
参看: 如何安装使用nutch搜索,solr索引,luke查看
http://www.coolder.com/forum/2217-1-1
安装 nutch 1.2 bin 到cygwin。
运行 bin/nutch crawl urls -dir crawl -depth 3 -topN 5
修改Tomcat下的nutch-1.2的C:\xampp\apache\tomcat\webapps\nutch-1.2\WEB-INF、nutch-site.xml,添加如下内容,其中的路径是nutch执行crawl命令时产生的index所在路径:
<property>
<name>searcher.dir</name>
<value>D:\cygwin\home\nutch-1.2\crawl\</value>
</property>
这时就可以在http://localhost:8080/nutch-1.2 搜索到nutch爬行(crawl)的内容。