1作者: martinald9 个月前原帖
我已经非常习惯使用“大型”语言模型来分析PDF文件。 现在,llama.cpp支持视觉功能;我在本地(通过LM Studio)尝试了PDF文件,但结果并没有我预期的那么好。有一次,它坚持说无法进行“光学字符识别”(OCR),但却给了我一个数据可能是什么样子的示例——实际上就是数据本身。 另一个主要问题是,有时PDF实际上是由图像组成的;在处理这些文件时,它也变得非常困惑。 鉴于这一切都是如此新颖,我很难找到任何可以简化这个过程的工具。
1作者: ShivamHacks9 个月前原帖
我开发了一个人工智能代理,可以进行移动应用的质量保证(QA),这是在谷歌工作多年并等待几周才能得到QA结果后实现的。它在真实设备上运行,并使用多个代理(包括计算机使用)进行类似人类的测试。很高兴回答任何问题,希望它能帮助应用开发者更快地发布无bug的产品!
10作者: SandroG9 个月前原帖
嗨,HN, 我将David Deutsch和Chiara Marletto于2025年5月13日发布的论文《时间的构造理论》转化为一个可执行的Python库。 你将发现: - 论文形式的逐一翻译:基底、属性、任务、构造器和任务代数运算符 - 可能性/不可能性谓词和反事实以定义的方式精确编码 - 测试套件与每个引理和示例相对应(覆盖率超过95%,经过mypy类型检查) - 关键结果的复现:时间保持基底、不可逆性证明、量子分支任务和自复制构造器 为什么分享? 阅读这篇论文比较困难;将每个定义用代码表达清晰了这些想法,并提出了一些讨论问题。希望这能帮助他人并激发进一步的扩展。 寻求反馈: - 我是否遗漏了形式中的任何细微之处? - 你希望接下来实现哪些额外的定理或示例? 仓库链接: [https://github.com/gvelesandro/constructor-theory-simulator](https://github.com/gvelesandro/constructor-theory-simulator) 感谢你的关注——欢迎提出问题和拉取请求!