2作者: yathern7 个月前原帖
嘿,HN!我已经在这个概念上断断续续工作了一年,挑战自己在愚人节之前发布它,因为我总是倾向于囤积项目。 这是一个无限猴子定理的模拟器!你可以浏览我们的猴子网格,它们正在随机地在键盘上忙碌地打字,看看它们写了哪些单词——其中有多少出现在莎士比亚的作品中。 如果你愿意,可以免费加入并获得一只属于自己的猴子。猴子在打出特殊单词时会获得特别奖励——这些奖励可以用来定制它们的外观。我今天早上刚刚重置了模拟器,所以我们是从零开始的! 在某些地方可能还有些粗糙,如果有内容加载不正确,请刷新一下。我希望你能喜欢这个项目——对我来说,这绝对是一个充满爱的劳动成果!
2作者: egra7 个月前原帖
我在经历了太多糟糕的纽约公寓经历后建立了这个工具:漏水、老鼠、没有暖气。这些问题当然在房源列表中是看不到的。<p>Realest 是一个浏览器扩展,它将 311 房屋投诉数据叠加在 StreetEasy 的房源列表上,直接显示在搜索结果中。<p>它从纽约市的开放数据中提取信息,旨在帮助租户避免隐藏的问题。<p>非常希望能得到反馈!
3作者: themanmaran7 个月前原帖
上周对于开源大型语言模型(LLMs)来说是个重要的时刻。我们得到了以下模型: - Qwen 2.5 VL(72亿和32亿参数) - Gemma-3(27亿参数) - DeepSeek-v3-0324 几周前,我们还获得了新的mistral-ocr模型。我们更新了我们的OCR基准测试,以包含这些新模型。 我们评估了1000份文档的JSON提取准确性。主要发现如下: - Qwen 2.5 VL(72亿和32亿参数)表现最为出色。两者的准确率都在75%左右(相当于GPT-4o的表现)。Qwen 72亿参数的准确率仅比32亿参数高出0.4%,在误差范围内。 - 两个Qwen模型的表现均超过了mistral-ocr(72.2%),后者是专门为OCR训练的。 - Gemma-3(27亿参数)的得分仅为42.9%。这一结果尤其令人惊讶,因为它的架构基于仍然在准确率排行榜上名列前茅的Gemini 2.0。 数据集和基准测试工具完全开源。您可以在以下链接查看代码和复现步骤: - [基准测试开源模型的博客](https://getomni.ai/blog/benchmarking-open-source-models-for-ocr) - [GitHub上的基准测试代码](https://github.com/getomni-ai/benchmark) - [Hugging Face上的OCR基准数据集](https://huggingface.co/datasets/getomni-ai/ocr-benchmark)
1作者: wiraashm7 个月前原帖
你们觉得一个集成了大型语言模型(LLM)的虚拟白板怎么样?它可以作为思维助手,根据你的写作提供见解和建议,帮助你进行头脑风暴。它还能够修改你的文字,增加更多的想法。同时,它也能检索信息,并结合你在白板上已经写的内容提供见解。
6作者: vectify_AI7 个月前原帖
我们对基于向量的RAG系统感到沮丧,因为它们依赖于语义相似性,往往在处理长篇、特定领域的文档时表现不佳。在这些情况下,特定领域的术语往往具有语义相似性,这使得检索用户所需的确切内容变得困难。同时,有效地融入专家知识或用户偏好也很具挑战性。因此,我们开始探索一种更以推理为驱动的RAG方法。受到AlphaGo中的树搜索算法的启发,我们提出了一种基于推理的RAG系统,利用树搜索来指导检索。 我们开源了一个关键组件:PageIndex,这是一个层次化索引系统,将大型文档(如财务报告、监管文件或教科书)转化为优化用于基于推理的RAG的语义树。 一些亮点包括: - 层次结构:将冗长的PDF文档组织成适合大语言模型(LLM)的树状结构——就像一个智能目录。 - 精确引用:每个节点包含摘要和确切的物理页码。 - 自然分段:节点与文档章节对齐,保留上下文——没有任意的分块。 我们已经在财务文档分析中使用PageIndex与基于推理的RAG,并且与基于向量的系统相比,检索准确性有了显著提高。 非常期待任何反馈——尤其是对基于推理的RAG的看法,或者PageIndex可能应用的想法!
2作者: billconan7 个月前原帖
我记得在HN首页上有一篇关于一个失败的创业项目的旧而受欢迎的帖子。这个项目是关于生物科学的提炼。结论是,科学提炼没有钱可赚。<p>我想不起来任何关键词来找到它。如果你记得它的标题,请帮我一下。<p>谢谢!
11作者: bavarianbob7 个月前原帖
GitHub 问题: https://github.com/sindresorhus/camelcase/issues/114 <p>有没有人遇到的 npm 中断问题超出了提到的 camelcase 包?
2作者: seklum7 个月前原帖
我正在制作一个名为 Relay 的 3D 建模程序,以下是 Rust 代码的基本概述,包括名称保留。接下来,我将添加带有基本窗口选项的界面。 ```rust // 不可编辑的代码 let a = window; // a 代表窗口 let b = menus; // b 将是稍后侧边的菜单 // 我会在从手机转到电脑后编译实际代码。 // 短路布尔逻辑 println!("qwertkeyf=wywhynwnewwordlessinsteadrswlmnophtyfj"); println!("b, later"); ``` 该代码的功能基于您对打印行的解码。提供的关键行中,“less instead” 是两个独立的部分,表示不使用加号或减号符号,并且基于一侧。请随意在 Rust 中使用此内容,但此代码受版权保护。
3作者: lengxzai7 个月前原帖
你好!<p>我非常喜欢Anki,已经使用它学习中文多年,但我总是懒惰,难以克服“动力障碍”,坐下来创建一个卡片组。<p>最近,我在YouTube上观看了很多关于人工智能的内容,花了三天时间为Andrej Karpathy的“深入探讨大型语言模型”视频创建了一个卡片组。这实在不太实际——所以我在asimpleai.com上制作了一个简单的YouTube到Anki的转换器。<p>这个工具还有些粗糙……但我希望它最终能成为对社区有用的东西。欢迎反馈和建议!<p>祝好!