1作者: amallia8 个月前原帖
我们构建了BMP,这是一个快速且内存高效的学习稀疏检索搜索引擎——使用Rust编写,并提供Python绑定。 它支持对大型集合(如MS MARCO)进行全面(非近似)搜索,而无需丢弃查询词或修剪索引。 特点: - 完全支持SPLADE、uniCOIL、CSV及类似模型 - 无静态修剪——保持完整的索引保真度 - 无词项丢弃——每个标记都很重要 - 由于块最大修剪,运行速度快 - 可通过Python使用 - 可从CIFF-Hub获取预构建索引:<a href="https:&#x2F;&#x2F;github.com&#x2F;pisa-engine&#x2F;ciff-hub&#x2F;">https:&#x2F;&#x2F;github.com&#x2F;pisa-engine&#x2F;ciff-hub&#x2F;</a> 支持的论文: 《使用块最大修剪加速学习稀疏检索》(SIGIR 2024) - <a href="https:&#x2F;&#x2F;arxiv.org&#x2F;pdf&#x2F;2405.01117" rel="nofollow">https:&#x2F;&#x2F;arxiv.org&#x2F;pdf&#x2F;2405.01117</a> 欢迎反馈、问题或贡献!