如何找到相似的结果并按相似性排序?
例如。搜索“库存溢出”将返回
- 堆栈溢出
- SharePoint溢出
- 数学溢出
- 政治溢出
- 视觉特效溢出
例如。搜索“ LO”将返回:
- 巴勃罗毕加索
- 米开朗基罗
- 杰克逊·波洛克
回答:
使用搜索引擎索引和搜索MySQL表,以获得更好的结果
使用Sphinx搜索引擎和PHP
在PHP中使用Lucene引擎
使用全文索引,查找相似/包含的字符串
回答:
Levenshtein的距离非常不稳定。(UDF,Query)
搜索“ dog”给我:
- 狗
- 沼泽
- 前
- 大
- 回声
LIKE
返回更好的结果,但是尽管确实存在类似的字符串,但对于长查询不返回任何结果- 狗
- 狗狗
- 多加拉尔
- 教条
回答:
我发现,当您针对另一个完整字符串搜索完整字符串时,Levenshtein距离可能很好,但是当您在字符串中查找关键字时,此方法不会返回(有时)所需的结果。此外,SOUNDEX函数不适用于英语以外的其他语言,因此非常有限。您可以通过LIKE摆脱困境,但这实际上是针对基本搜索的。您可能想研究其他搜索方法以实现所需的目标。例如:
您可以将Lucene用作项目的搜索基础。它以大多数主要的编程语言实现,并且非常快速且通用。该方法可能是最好的,因为它不仅搜索子字符串,而且搜索字母转置,前缀和后缀(全部组合)。但是,您需要保留一个单独的索引(尽管有时可以使用CRON从独立脚本中对其进行更新)。
或者,如果您需要MySQL解决方案,则全文功能相当不错,并且肯定比存储过程快。如果您的表不是MyISAM,则可以创建一个临时表,然后执行全文搜索:
CREATE TABLE IF NOT EXISTS `tests`.`data_table` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
`title` varchar(2000) CHARACTER SET latin1 NOT NULL,
`description` text CHARACTER SET latin1 NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin AUTO_INCREMENT=1 ;
如果您不想自己创建数据,请使用数据生成器生成一些随机数据…
注意:列类型应该是latin1_bin
执行区分大小写的搜索,而不是使用时不区分大小写latin1
。对于Unicode字符串,我建议utf8_bin
区分大小写和utf8_general_ci
不区分大小写的搜索。
DROP TABLE IF EXISTS `tests`.`data_table_temp`;CREATE TEMPORARY TABLE `tests`.`data_table_temp`
SELECT * FROM `tests`.`data_table`;
ALTER TABLE `tests`.`data_table_temp` ENGINE = MYISAM;
ALTER TABLE `tests`.`data_table_temp` ADD FULLTEXT `FTK_title_description` (
`title` ,
`description`
);
SELECT *,
MATCH (`title`,`description`)
AGAINST ('+so* +nullam lorem' IN BOOLEAN MODE) as `score`
FROM `tests`.`data_table_temp`
WHERE MATCH (`title`,`description`)
AGAINST ('+so* +nullam lorem' IN BOOLEAN MODE)
ORDER BY `score` DESC;
DROP TABLE `tests`.`data_table_temp`;
从MySQL API参考页面中了解更多信息
不利的一面是,它不会寻找字母转置或“相似的,听起来像”的单词。
更新
使用Lucene进行搜索,您只需要创建一个cron作业(所有Web主机都具有此“功能”),该作业将仅执行一个PHP脚本(例如,“ cd / path /
to / script; php searchindexer.php”
),将更新索引。原因是索引成千上万的“文档”(行,数据等)可能需要几秒钟,甚至几分钟,但这是为了确保所有搜索都尽可能快地执行。因此,您可能要创建要由服务器运行的延迟作业。可能是一整夜,或者在下一小时,这取决于您。PHP脚本应如下所示:
$indexer = Zend_Search_Lucene::create('/path/to/lucene/data');Zend_Search_Lucene_Analysis_Analyzer::setDefault(
// change this option for your need
new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num_CaseInsensitive()
);
$rowSet = getDataRowSet(); // perform your SQL query to fetch whatever you need to index
foreach ($rowSet as $row) {
$doc = new Zend_Search_Lucene_Document();
$doc->addField(Zend_Search_Lucene_Field::text('field1', $row->field1, 'utf-8'))
->addField(Zend_Search_Lucene_Field::text('field2', $row->field2, 'utf-8'))
->addField(Zend_Search_Lucene_Field::unIndexed('someValue', $someVariable))
->addField(Zend_Search_Lucene_Field::unIndexed('someObj', serialize($obj), 'utf-8'))
;
$indexer->addDocument($doc);
}
// ... you can get as many $rowSet as you want and create as many documents
// as you wish... each document doesn't necessarily need the same fields...
// Lucene is pretty flexible on this
$indexer->optimize(); // do this every time you add more data to you indexer...
$indexer->commit(); // finalize the process
然后,这基本上就是您搜索(基本搜索)的方式:
$index = Zend_Search_Lucene::open('/path/to/lucene/data');// same search options
Zend_Search_Lucene_Analysis_Analyzer::setDefault(
new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num_CaseInsensitive()
);
Zend_Search_Lucene_Search_QueryParser::setDefaultEncoding('utf-8');
$query = 'php +field1:foo'; // search for the word 'php' in any field,
// +search for 'foo' in field 'field1'
$hits = $index->find($query);
$numHits = count($hits);
foreach ($hits as $hit) {
$score = $hit->score; // the hit weight
$field1 = $hit->field1;
// etc.
}
这是Java,PHP和.Net中有关Lucene的绝佳网站。
每种搜索方法各有利弊:
- 您提到了Sphinx搜索,它看起来非常好,只要您可以在您的Web主机上运行守护进程即可。
- Zend Lucene需要执行cron作业才能重新索引数据库。尽管它对用户是完全透明的,但这意味着任何新数据(或已删除的数据!)并不总是与数据库中的数据同步,因此不会在用户搜索时立即显示。
- MySQL FULLTEXT搜索既好又快速,但不会给您前两个功能和灵活性。
如果我忘记/遗漏任何东西,请随时发表评论。
以上是 如何找到相似的结果并按相似性排序? 的全部内容, 来源链接: utcz.com/qa/399893.html