上一篇:被熟人连骗带坑差点吃官司教训总结篇
下一篇:如何部署jar文件到Tomcat下运行
如何安装使用nutch搜索,solr索引,luke查看
米娅 2011年10月15日 20:14:41

1)
下载nutch的可执行zip文件,解压到$HOME/nutch-1.3
如果是Windows,需要下载cygwin,模拟linux/Unix环境。

用命令进入相应目录:

cd $HOME/nutch-1.3/runtime/local

2)
把你的agent name添加到conf/nutch-site.xml文件的http.agent.name属性域。例如:
<property>
 <name>http.agent.name</name>
 <value>My Nutch Spider</value>
</property>

3)

* 编辑文件 conf/regex-urlfilter.txt

比如,用
+^http://([a-z0-9]*\.)*.apache.org/

代替

# accept anything else
+.

4)
用下面命令搜索:

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

5) 下载 solr的可执行zip文件,给搜到的内容建立index

解压到$HOME/apache-solr-3.X
进入相应目录:
cd ${APACHE_SOLR_HOME}/example

启动: java -jar start.jar

现在可以打开solr网页:
http://localhost:8983/solr/admin/
http://localhost:8983/solr/admin/stats.jsp

6)
拷贝schema.xml到solr:

•cp ${NUTCH_RUNTIME_HOME}/conf/schema.xml ${APACHE_SOLR_HOME}/example/solr/conf/

重启example目录下的solr的start.jar.
•java -jar start.jar

运行Solr的Index命令:
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawldb crawldb/linkdb crawldb/segments/*

7) 下载lukeall.jar,用java -jar lukerall.jar启动,察看已建立的索引的搜索到的内容。

 

参考链接:
http://wiki.apache.org/nutch/NutchTutorial



2楼 2011年10月15日 21:19:09 米娅
试着用luke打开crawl下的segments 等下的index文件,显示:No valid directory at the location, try another location,看来索引还没有建立,继续学习中......

3楼 2011年10月16日 19:57:33 米娅
这个命令说是搜索和索引一块完成的:

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN5
第1页 共1页
相关链接
1. Drupal Rooms: 安装后不显示Full Calendar
2. 在siteground.com的shared Server上安装SSL笔记
3. 组装计算机,安装系统运行,经常出现蓝屏(已解决)
4. Windows Office 2007: 错误1706 安装程序找不到所需文件
5. Discuz 2.5 模板风格安装体验篇(排版混乱问题)
6. 安装、运行nutch 1.2
7. 网站如何屏蔽安装360浏览器的用户访问
8. eZ Publish CMS 安装笔记
9. 如何安装curl
10. Windows Vista下安装、运行xampp,搭建网站的流水帐
11. 翻墙工具 之 Hotspot Shield 安装运行详解
12. PC机的操作系统和应用程序安装流水账