返回首页
最新
我们构建了BMP,这是一个快速且内存高效的学习稀疏检索搜索引擎——使用Rust编写,并提供Python绑定。
它支持对大型集合(如MS MARCO)进行全面(非近似)搜索,而无需丢弃查询词或修剪索引。
特点:
- 完全支持SPLADE、uniCOIL、CSV及类似模型
- 无静态修剪——保持完整的索引保真度
- 无词项丢弃——每个标记都很重要
- 由于块最大修剪,运行速度快
- 可通过Python使用
- 可从CIFF-Hub获取预构建索引:<a href="https://github.com/pisa-engine/ciff-hub/">https://github.com/pisa-engine/ciff-hub/</a>
支持的论文:
《使用块最大修剪加速学习稀疏检索》(SIGIR 2024) - <a href="https://arxiv.org/pdf/2405.01117" rel="nofollow">https://arxiv.org/pdf/2405.01117</a>
欢迎反馈、问题或贡献!