编程笔记-- Coolder.com

如何安装使用nutch搜索，solr索引，luke查看

米娅 2011年10月15日 20:14:41

1)
下载nutch的可执行zip文件，解压到$HOME/nutch-1.3
如果是Windows，需要下载cygwin，模拟linux/Unix环境。

用命令进入相应目录：

cd $HOME/nutch-1.3/runtime/local

2)
把你的agent name添加到conf/nutch-site.xml文件的http.agent.name属性域。例如:
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>

* 编辑文件 conf/regex-urlfilter.txt

比如，用
+^http://([a-z0-9]*\.)*.apache.org/

代替

# accept anything else
+.

4)
用下面命令搜索：

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

5) 下载 solr的可执行zip文件，给搜到的内容建立index

解压到$HOME/apache-solr-3.X
进入相应目录：
cd ${APACHE_SOLR_HOME}/example

启动： java -jar start.jar

6）
拷贝schema.xml到solr:

•cp ${NUTCH_RUNTIME_HOME}/conf/schema.xml ${APACHE_SOLR_HOME}/example/solr/conf/

重启example目录下的solr的start.jar.
•java -jar start.jar

运行Solr的Index命令:
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawldb crawldb/linkdb crawldb/segments/*

7）下载lukeall.jar，用java -jar lukerall.jar启动，察看已建立的索引的搜索到的内容。

2楼 2011年10月15日 21:19:09 米娅

试着用luke打开crawl下的segments 等下的index文件，显示：No valid directory at the location, try another location，看来索引还没有建立，继续学习中......

3楼 2011年10月16日 19:57:33 米娅

这个命令说是搜索和索引一块完成的：

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN5

第1页共1页