返回首页
最新
制作了这个本地工具,用于快速刷新我所工作的用户界面的色彩调色板。它接受一个包含16个元素的JSON(color0-color15),类似于ANSI转义码规范,并将其扩展为Tailwind的颜色覆盖和语义别名。<p>使用这个工具,让网页变得更加奇特和多彩吧 :)
我创建了Platter,旨在帮助独立创始人和独立开发者在X/Twitter上增长他们的受众,而无需花费数小时手动滚动和回复。
这个想法很简单:
- 它构建了你声音、产品和兴趣的数字化档案
- 它找到高价值的推文,让你可以提供有价值的回复
- 它帮助你用自己的语气轻松撰写深思熟虑的回复,只需点击一下
这不是一个Chrome扩展程序。你可以在任何地方参与互动,甚至在手机上。我之所以制作这个工具,是因为我发现社交增长虽然必要,但却很耗费精力。
我非常希望能听到社区的反馈,特别是那些在构建过程中努力增长的人。
嗨,HN,
我正在开发一个名为 QSS(量化相似性搜索)的向量搜索引擎。它是用 C 语言编写的,探索了将嵌入向量积极量化到每个维度 1 位的想法。它使用 XOR 和 popcount 进行快速近似搜索,然后通过对原始向量使用余弦相似度进行重新排序。
主要目标是看看在不牺牲太多搜索质量的情况下,量化可以推进到什么程度,同时在内存使用和速度上获得显著提升。
工作原理
嵌入被量化为每个维度 1 位(例如,300D → 300 位 → ~40 字节)。
搜索使用按位 XOR 和 popcount(汉明距离)进行。
短名单使用原始(浮点)嵌入的余弦相似度进行重新排序。
支持 GloVe、Word2Vec 和 fastText 格式。
目标
分析量化与搜索精度之间的权衡。
测量潜在的速度和内存提升。
探索这种方法在更大数据集上的扩展性。
初步测试
到目前为止,我只进行了几次小规模测试,但早期迹象令人鼓舞:
对于一些查询(例如“hello”,“italy”),前 30 个结果与全精度余弦搜索匹配。
在 Word2Vec 嵌入上,量化管道比标准余弦相似度循环快了多达 18 倍。
这些结果目前只是个案,我分享这个项目是希望在深入基准测试之前获得反馈。
其他说明
目前词查找是线性且未优化的,重点在于相似性搜索逻辑。
测试是在 2018 年的 iMac(3.6 GHz Intel i3)上单线程进行的。
如果你对向量搜索、量化或低级性能技巧感兴趣,我很想听听你的想法:
你认为这种激进的量化方法能在大规模应用中奏效吗?
还有其他你推荐探索的快速近似搜索技术吗?
项目仓库在这里:https://github.com/buddyspencer/QSS
感谢阅读!