Solr 基于 Lucene 的企业级搜索引擎服务器

Solr 是一个基于 Lucene 的 Java 搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式)。它易于安装和配置,而且附带了一个基于 HTTP 的管理界面。Solr 已经在众多大型的网站中使用,较为成熟和稳定。

Solr 基于 Lucene 的企业级搜索引擎服务器

Solr简介

Solr 是一种可供企业使用的、基于 Lucene 的搜索服务器,它支持层面搜索、命中醒目显示和多种输出格式。

Solr 包装并扩展了 Lucene,所以 Solr 的基本上沿用了 Lucene 的相关术语。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容。

通过对 Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。此外,很多 Lucene 工具(如Nutch、 Luke)也可以使用Solr 创建的索引。

安装 solr

由于 Solr 基于java 开发,因此 Solr 在 Windows 及 Linux 都能较好部署使用,但由于 Solr 提供了一些用于测试及管理、维护较为方便的 shell 脚本,因此在生产部署时候建议安装在 Linux 上,测试时候可以在 Windows 使用。

下载 solr

首先去 Apache 官方网站下载 solr,下载地址:

http://labs.renren.com/apache-mirror/lucene/solr/3.4.0/

目录结构

下载后解压目录如下

  • client 是一个 ruby 实现的示例,这个我们暂时不管
  • contrib 有一些功能模块是需要的 jar 包
  • dist是打包发布好的工程war包
  • docs 是帮助文档
  • example 是示例,里面有打包部署好的solr工程示例和servlet容器jetty。如果你没有tomcat可以直接使用Jetty服务器部署你的solr示例。

利用 tomcat 发布 solr 示例

将下载的solr解压后,进入apache-solr-3.4.0\dist目录,将里面的solr.war放到D:\tomcat-6.0.28\webapps目录下,启动tomcat会自动解压。(当然,你也可以手动解压放到wabapps目录下)

当然你也可以设置context指向你的solr工程,在 D:\tomcat-6.0.28\conf\Catalina\localhost目录加入solr.xml配置,配置如下:

<Context docBase="D:\solr.war" debug="0" crossContext="true" >

    <Environment name="solr/home" type="java.lang.String" value="D:\solr" override="true" />

</Context>

中文分词

采用庖丁解牛作为 solr(Lucene)缺省的中文分词方案,项目库:http://code.google.com/p/paoding/

Google groups:http://groups.google.com/group/paoding

Javaeye 的 groups:http://analysis.group.javaeye.com/

与nutch的集成使用

http://blog.foofactory.fi/2007/02/online-indexing-integrating-nutch-with.html

嵌入式Solr

http://wiki.apache.org/solr/Solrj#EmbeddedSolrServer

分布式索引

http://wiki.apache.org/solr/CollectionDistribution

参考资料

  • http://wiki.apache.org/solr/
  • http://www.ibm.com/developerworks/cn/java/j-solr1/
  • http://www.ibm.com/developerworks/cn/java/j-solr2/
  • http://www.xml.com/pub/a/2006/08/09/solr-indexing-xml-with-lucene-andrest.html?page=1
  • http://lucene.apache.org/java/docs/queryparsersyntax.html
  • http://www.blogjava.net/RongHao/archive/2007/11/06/158621.html

以上是 Solr 基于 Lucene 的企业级搜索引擎服务器 的全部内容, 来源链接: utcz.com/p/232194.html

回到顶部