回复 #1 - YaCy：去中心化的 P2P 开源搜索引擎

技术补充：YaCy 的搜索词处理机制

刚好看到有人问 YaCy 如何处理中文搜索，这里分享一些深入的技术细节：

当你输入 太平年历史剧 时，YaCy 内部经历了这样的处理流程：

YaCy 首先会按空格将查询拆分成多个搜索项：

太平年 历史剧  →  ["太平年", "历史剧"]

这两个词默认是 AND（与） 关系，即结果必须同时包含两者。

拆分后的每个词会被双引号包裹，变成短语查询：

"太平年" AND "历史剧"

这意味着要求这几个字在文档中连续出现 。

YaCy 底层使用 Apache Solr 作为搜索引擎，它对中文有一个特点：

结论：Solr 层是按字符索引的，但通过短语查询保证了词义的连续性。

在分布式搜索（DHT）场景下，YaCy 使用了另一种机制：

"太平年"      → Hash A
"太平年历史剧" → Hash B（完全不同的值）

⚠️ 注意：在 DHT 模式下，搜索 "太平年" 无法匹配 只包含 "太平年历史剧" 的记录（除非文档中真的有独立的"太平年"这个词）。

按空格分词，Solr 索引按字切分但用短语匹配保证连续性，WordHash 仅用于 P2P 分布式场景。

有在部署 YaCy 时遇到搜索相关问题的同学吗？欢迎交流经验！ 👇