Nutch2.x 编译和安装配置

目录结构

  • 介绍
  • 编译配置
  • 参考文章

[一]、介绍

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
现在Nutch分为两个版本:1.x和2.x,这两个版本的主要区别在于底层的存储不同。1.x版本是基于Hadoop架构的,底层存储使用的是HDFS,而2.x通过使用Apache Gora,使得Nutch可以访问HBase、Cassandra、MySQL、DataFileAvroStore、AvroStore等等。

[二]、编译配置

目前官方2.x只提供了源码下载,不再提供编译发布版本,需要用户自己去编译。

2.1 下载解压源码

官方下载:Nutch2.x 源码,目前为止最新版本2.2.1,下载后解压:

2.2  修改  $NUTCH_HOME/conf/nutch-site.xml 在 configuration节点中增加如下内容:

2.3 修改 $NUTCH_HOME/ivy/ivy.xml  去掉如下注释,启用 gora-hbase:

2.4 创建 $NUTCH_HOME/conf/gora.properties ,添加如下内容:

2.5 编译

2.6 其他配置

如果编译过程比较长,建议修改ivy中配置的maven仓库地址,具体方法:$NUTCH_HOME/ivy/ivysettings.xml 找到如下代码:

把默认的maven中央库地址 http://repo1.maven.org/maven2/  替换成国内OSC提供的镜像:http://maven.oschina.net/content/groups/public/

如果编译过程中有如下错误提示:

是因为缺少lib包,解决办法如下:

  • 下载 sonar-ant-task-2.1.jar,将其拷贝到 $NUTCH_HOME/lib 目录下面
  • 修改 $NUTCH_HOME/build.xml,引入上面添加的jar包:

[三]、参考文章

—————–  EOF @Michael Sun —————–

原创文章,转载请注明: 转载自micmiu – 软件开发+生活点滴[ http://www.micmiu.com/ ]

本文链接地址: http://www.micmiu.com/opensource/nutch/nutch2x-tutorial/

发表评论?

0 条评论。

发表评论


注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">