1)
下载nutch的可执行zip文件,解压到$HOME/nutch-1.3
如果是Windows,需要下载cygwin,模拟linux/Unix环境。
用命令进入相应目录:
cd $HOME/nutch-1.3/runtime/local
2)
把你的agent name添加到conf/nutch-site.xml文件的http.agent.name属性域。例如:
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
3)
* 编辑文件 conf/regex-urlfilter.txt
比如,用
+^http://([a-z0-9]*\.)*.apache.org/
代替
# accept anything else
+.
4)
用下面命令搜索:
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
5) 下载 solr的可执行zip文件,给搜到的内容建立index
解压到$HOME/apache-solr-3.X
进入相应目录:
cd ${APACHE_SOLR_HOME}/example
启动: java -jar start.jar
现在可以打开solr网页:
http://localhost:8983/solr/admin/
http://localhost:8983/solr/admin/stats.jsp
6)
拷贝schema.xml到solr:
•cp ${NUTCH_RUNTIME_HOME}/conf/schema.xml ${APACHE_SOLR_HOME}/example/solr/conf/
重启example目录下的solr的start.jar.
•java -jar start.jar
运行Solr的Index命令:
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawldb crawldb/linkdb crawldb/segments/*
7) 下载lukeall.jar,用java -jar lukerall.jar启动,察看已建立的索引的搜索到的内容。
参考链接:
http://wiki.apache.org/nutch/NutchTutorial