你好,HN,
我是Ghita,ZeroEntropy(YC W25)的联合创始人。我们为RAG和AI代理构建高精度的搜索基础设施。
我们刚刚发布了两个新的最先进的重排序模型:zerank-1和zerank-1-small。其中一个是完全开源的,采用Apache 2.0许可证。
我们使用一种新颖的受Elo评分启发的流程训练了这些模型,具体细节在附带的博客中有详细描述。简而言之,训练步骤大致如下:
* 使用多个大型语言模型(LLMs)收集文档对之间的软偏好。
* 采用ELO风格的评分系统(Bradley-Terry)将成对比较转换为每个文档的绝对分数。
* 通过偏差校正步骤对查询之间的相关性分数进行归一化,该步骤使用跨查询比较建模,并通过最大似然估计(MLE)求解。
你可以通过我们的API([https://docs.zeroentropy.dev/models](https://docs.zeroentropy.dev/models))或HuggingFace([https://huggingface.co/zeroentropy/zerank-1-small](https://huggingface.co/zeroentropy/zerank-1-small))尝试这些模型。
我们非常希望得到社区对这些模型和训练方法的反馈。完整的技术报告也将很快发布。
谢谢!
返回首页
最新
我们开发了一款基于人工智能的数据报告程序。我注意到创始人、分析师和主管们在数据控制方面存在问题。他们要么长时间等待团队提供的数据报告,要么在复杂的编码中苦苦挣扎。我们希望通过创建一个在几秒钟内即可完成且无需编码的工具来解决这个问题。用户可以上传他们的数据(如Excel、CSV、MySQL文件等),并可以用自然语言提出任何问题。他们将获得可交互的仪表板,可以更改颜色、大小、图表类型等。如果您尝试使用,请留下您的反馈,提前感谢!
嗨,HN!我是James,MetaMCP的作者。我们最近重写了MetaMCP 2.0,邀请您测试这个新应用。它是开源的,并采用MIT许可证。
<p>它的工作原理:</p>
- 将MCP服务器分组到命名空间中
- 将它们作为统一的meta-MCP端点暴露(支持SSE或SHTTP,或使用openapi.json在开放Web UI中等)
- 插件中间件:广泛使用的一个是过滤掉未使用的工具。未来还会增加更多功能,比如日志记录、人机协作、保护措施,您也可以在GitHub上留下问题进行讨论
- 提供预构建的Docker镜像,快速设置
<p>您可能会觉得有趣的几点:</p>
- 我们预热空闲会话,以减少冷启动延迟
- 您可以通过内置的MCP检查器进行调试
- 您甚至可以在一个MetaMCP内部运行多个MetaMCP(是的,我们试过)
<p>快速演示视频:<a href="https://youtu.be/Cf6jVd2saAs" rel="nofollow">https://youtu.be/Cf6jVd2saAs</a></p>
<p>GitHub仓库:<a href="https://github.com/metatool-ai/metamcp">https://github.com/metatool-ai/metamcp</a></p>
<p>Docker镜像:ghcr.io/metatool-ai/metamcp:latest</p>
期待听到您的反馈或功能请求,谢谢!
如果您正在运营一个多语言网站,您是如何处理偶尔需要将几句话翻译成多种语言的情况的?<p>我投入了大量时间和金钱来支持网站界面的9种语言(截至目前),但随着时间的推移以及新功能和更改的出现,我有时需要在某些地方添加新的文本。通常这些文本不长,2、3、4句话,或者只是几个单词。<p>让个别翻译人员处理这样微不足道的工作显得毫无意义。翻译机构的费用非常高(根据我的经验,价格是个别翻译人员的4倍),因此我不得不求助于基本的谷歌翻译,但遗憾的是,这个工具停留在2010年,效果并不好。<p>我没有找到任何适合这种情况的“Fiverr”替代方案,所以我想知道其他人是否有不同的处理方式?
嘿,HN!
我总是遇到这样的时刻:“我肯定收藏了一个做 X 的仓库……但它叫什么名字来着?”如果你收藏了很多项目,手动查找确切的仓库非常麻烦,尤其是因为 GitHub 的星标搜索界面并不好。
这就是我制作这个工具的原因。它使用向量嵌入技术,让你可以通过自然语言搜索你的 GitHub 星标。初始版本的后端是用 Python 编写的(随意编码),我最近用 Rust 重写了后端,因为我对随意编码的实现不太有信心。
这个工具有一个切换选项,可以启用“全局搜索”,它会搜索所有已索引的仓库(不仅仅是你的星标)。这可能会帮助你找到一些你还没有收藏的新仓库。
希望你觉得它有用。
GitHub: [https://github.com/itzlambda/starscout](https://github.com/itzlambda/starscout)
展示线程: [https://x.com/itzlambda/status/1904878939073294825](https://x.com/itzlambda/status/1904878939073294825)
参与者需要找到他们能发现的最有趣的模式,并证明该模式始终成立。<p>他们通过发现和证明更多有趣的模式来获得更多积分。<p>这似乎是一个人工智能更难处理的任务。
今天早上我遇到了间歇性的搜索失败,但现在每次查询都会出现以下错误:<p><pre><code> 抱歉,我们在显示这些结果时遇到了错误。点击这里重试。
</code></pre>我试图寻找一个官方状态页面,但没有找到。不过,看起来其他人也遇到了同样的问题: https://downdetector.com/status/duckduckgo/<p>编辑:他们现在在搜索结果页面上更新了以下内容,当返回无结果时会显示:<p><pre><code> 我们正在经历一次故障。
感谢您的耐心等待,我们正在整理相关事宜!</code></pre>
我开发了一个开源命令行工具,允许你使用自然语言查询你的 Git 提交历史记录。<p>例如,可以询问仓库:<p>•“登录功能是什么时候添加的?”<br>•“认证流程发生了什么变化?”<p>该工具使用可配置模型(HF 或 OpenAI)对提交信息进行嵌入,存储在 ChromaDB 中,并通过 LangChain 使用 GPT 进行语义查询。<p>功能:<br>• 快速本地搜索(本地存储)<br>• 自然语言查询接口<br>• 基于 Typer 的简单命令行工具,提供列出和管理嵌入的命令<p>非常适合希望以更智能的方式探索版本历史的开发者。<p>欢迎反馈和贡献。