从C#客户端在Solr中索引pdf文档
基本上,我试图在Solr中为word或pdf文档编制索引,并找到了ExtractingRequestHandler,但无法弄清楚如何在c#中编写代码来执行HTTP
POST请求,就像在Solr Wiki中一样:http://wiki.apache。 org / solr /
ExtractingRequestHandler。
我已使用Solr zip中example / solr目录中的文件在Tomcat 7(7.0.22)上安装了Solr
3.4,但没有进行任何更改。应该在solrconfig.xml中直接配置ExtractingRequestHandler并准备使用,对吗?
你们中的某些人可以举一个C#(HttpWebRequest)示例来说明如何发出HTTP POST请求并上传PDF文件,就像在Solr
Wiki中使用curl一样吗?
我到处都是这个网站,还有许多其他网站都在寻找一个示例或教程,但没有发现任何东西。
我终于设法使用SolrNet使其正常工作!
为了使其正常工作,您需要将其从Solr zip复制到Solr安装目录中的lib文件夹中:
- dist文件夹中的apache-solr-cell-3.4.0.jar文件
- contrib \ extraction \ lib目录的内容
在SolrNet 0.4.0 beta 2中,此代码可以完成以下工作:
Startup.Init<IndexDocument>("YOUR-SOLR-SERVICE-PATH");var solr = ServiceLocator.Current.GetInstance<ISolrOperations<IndexDocument>>();
using (FileStream fileStream = File.OpenRead("FILE-PATH-FOR-THE-FILE-TO-BE-INDEXED"))
{
var response =
solr.Extract(
new ExtractParameters(fileStream, "doc1")
{
ExtractFormat = ExtractFormat.Text,
ExtractOnly = false
});
}
solr.Commit();
抱歉,添麻烦了。但是,我希望其他人会觉得有用。
回答:
我建议使用SolrNet客户端。它支持ExtractingRequestHandler。
这里是code.google.com上已弃用的仓库
以上是 从C#客户端在Solr中索引pdf文档 的全部内容, 来源链接: utcz.com/qa/398368.html