寻找最短分度时间Solr中

说明(仅供参考):寻找最短分度时间Solr中

我想索引文件的整个驱动器:2TB〜

我得到的文件列表(使用公共IO库)。

一旦我有文件的列表,我经过每一个文件,并从提取可读数据使用Apache提卡

一旦我有我使用Solr的索引的数据。

我使用solrj与Java应用

我的问题是:如何确定传递到Solr什么尺寸的集合。我试着用不同的结果传递不同的大小,即有时每个集合有150个文档比100个文档执行得更好,但有时它们不会。它们是您可以调整的最佳方式/配置,因为此过程必须重复进行。

并发症:

1)文件存储在网络驱动器上,检索文件名/文件需要过一段时间。

2)两个本程序(Java应用程序)和Solr本身不能使用超过512MB RAM

回答:

的,我会给出一些他们认为可能会影响索引速度的少数几个参数。通常需要尝试使用自己的硬件,RAM,数据处理复杂性等来找到最佳组合,即没有单一的银弹。

  1. 将索引过程中的段数增加到某个大数。说,10K。这将确保段的合并不会像往常一样频繁发生,因为它与默认的段数10一样。在索引期间合并段有助于减慢索引。索引编制完成后,您将不得不合并搜索引擎才能执行。还可以将线段的数量降低回明智的数量,例如10.

  2. 在索引过程中减少容器上的日志记录。这可以使用solr管理界面完成。这使索引过程更快。

  3. 要么降低自动提交的频率,要么将其关闭并控制自己提交。

  4. 删除批量索引的热身查询,不要自动复制任何缓存条目。

  5. 使用ConcurrentUpdateSolrServer,如果使用SolrCloud,则使用CloudSolrServer。

回答:

注释掉单个核心上的自动提交和tlogs和索引。在solrj api中使用多线程(线程数= cpu * 2的数量)来击中单个内核。

问候

拉雅

以上是 寻找最短分度时间Solr中 的全部内容, 来源链接: utcz.com/qa/259748.html

回到顶部