返回首页

24小时热榜

2作者: matherslabs大约 22 小时前原帖
我最近被解雇了,决定将我的精力投入到一些有意义的事情上。在两周的时间里,我每天工作16小时,开发了一款工具,可以将澳大利亚银行的PDF文件转换为干净、可靠的CSV格式,专门针对澳大利亚的银行。 大多数澳大利亚银行只提供PDF格式的对账单,而通用的转换工具往往无法正常工作:列会错位,多行描述会导致解析失败,表头会移动。现有的工具处理得并不好,我想要一个能正常工作的工具。 为了开始,我使用了自己的银行对账单来构建初始的解析器。当我意识到获取更真实的测试数据是多么困难时,我有了一个“显而易见”的时刻。人们不会随便交出他们的财务账本。这坚定了我的核心原则:信任和隐私必须是绝对的首要任务。 我最初尝试在客户端使用JavaScript构建一切,以实现最大程度的隐私,但性能和可靠性都很差,并且将解析器暴露在前端会使其容易被复制。 我最终选择了一个折衷方案:在Google Cloud Run上使用Python和FastAPI作为后端。这让我能够在可靠性和严格的隐私架构之间取得平衡。文件实时处理,临时文件在请求完成后立即删除。没有持久存储,也没有请求体的日志记录。 我的技术方案简单明了,专注于可靠性: - 我使用pdfplumber提取文本,避免复杂且容易出错的OCR。 - 我应用了一组特定于银行的正则表达式模式,以准确定位日期、金额和描述。 - 采用前瞻性启发式算法正确合并多行交易。每个解析器都根据其银行独特的PDF布局特征进行定制。 该项目的重点非常明确。我不打算支持数百家银行并提供平庸的结果,而是专注于少数几家,以确保做到准确。目前支持CommBank、Westpac、UBank和ING,接下来是ANZ和NAB。整个项目部署在Cloudflare Pages上,输出适合Excel、Google Sheets、Xero或MYOB的干净CSV文件。 这是一项有趣的挑战,涉及逆向工程混乱的真实数据。 欢迎在这里试用:<a href="https://aussiebankstatements.com" rel="nofollow">https://aussiebankstatements.com</a> 我很想听听反馈。如果在你的对账单上出现问题,提供一个经过编辑的样本将对改进解析器大有帮助。 我也很想知道这里的其他人是如何应对类似的混乱数据提取挑战的。
1作者: denizhdzh大约 1 小时前原帖
我正在构建一个可嵌入的人工智能代理,它能够将任何网站转变为一个互动的、具有上下文感知的体验。 与典型的常见问题解答机器人或通用聊天助手不同,这个代理不仅能读取您的PDF文件或文档,还能根据访客与您网站的互动方式进行学习,并相应地调整其回答、推荐或优惠。 从技术上讲: - 完全在客户端运行(无需外部API调用或后端依赖) - 使用RAG管道引用您自己的PDF、文档或内容库 - 采用本地嵌入技术,根据每位访客的会话个性化上下文和回答 - 支持自定义样式,可以嵌入到页面的任何位置 早期结果(来自SaaS测试者): - 试用注册量增加25-30% - 支持工单减少约20% - 自助设置时间少于2分钟 我非常希望能获得技术反馈,特别是在它如何处理嵌入、本地个性化逻辑或用户体验流程方面。乐意分享实施细节或讨论架构权衡。
1作者: mf-skjung大约 1 小时前原帖
嘿,HN, 我是SemanticsAV的创始人。这个项目酝酿已久,我非常激动(同时也有些紧张)终于可以和大家分享它。 几年前,我在一家安全公司设计基于机器学习的恶意软件检测器,在主要的杀毒软件测试中取得了优异的成绩。之后我离开了这个行业,转而从事计算机视觉和自然语言处理,目睹了人工智能的飞速发展。 回想起来,我震惊于恶意软件检测依然停留在过去,根本上依赖于1990年代的特征数据库模型。每个厂商都声称“基于人工智能”,但对大多数人来说,这只是旧有特征游戏上薄薄的一层。 这不仅仅是技术问题——这还是一个经济门槛。特征模型意味着只有那些拥有庞大数据收集预算的公司才能竞争,导致价格居高不下。结果是,整个Linux生态系统,作为互联网的支柱,数十年来只能依赖ClamAV,一个值得尊敬但逐渐老化的项目,作为唯一真正的通用开源选项。 我认为这是一个结构性失败,因此我决定从基本原则出发构建一个解决方案。 我的目标是证明一种真正的端到端人工智能方法可以完全取代特征,降低维护成本,并在不收集用户数据的情况下提供顶级性能。 这就是SemanticsAV: - 原生人工智能,无需特征:我们用一个单一的端到端人工智能替代了缓慢、昂贵且易出错的人类特征创建工作。它直接从原始二进制架构中学习,发现自己极为有效的模式,达到了人类引导系统无法匹敌的速度、准确性和经济效率。 - 永远免费用于Linux:该扫描器在Linux上对所有商业用途永久免费,仅需注明出处。为了保持对新兴威胁的顶级性能,我们定期发布超轻量级的人工智能模型(通常每种文件类型小于5MB)。这些更新通过开源命令行界面按需下载,确保核心引擎在扫描期间保持100%离线。 - 通过可验证的架构建立信任:核心引擎(SDK)是一个闭源二进制文件,但在架构上无法进行网络连接。这不是你需要信任的声明;这是一个你可以验证的事实。将其放在防火墙后面或与任何网络监控工具一起运行,你将看到SDK没有任何外发连接。所有合法的网络活动都由MIT许可的开源命令行界面独占处理,你可以逐行审核。 - 设计即隐私(优先离线,在线可选):免费的扫描器在设计上是100%离线的。为了更深入的威胁归因,你可以选择启用我们的付费云智能服务。即便如此,我们也不想要你的文件。SDK提取一个小的(约15KB)加密“架构指纹”,然后开源命令行界面将其传输进行分析。这个指纹是单向转换;原始文件不会被发送,也无法从中重建。这个服务旨在通过向你展示判决背后的证据来解决人工智能的黑箱问题。 当前状态与请求: 该平台目前支持PE和ELF文件,未来将支持更多格式。我的目标是让SemanticsAV成为整个Linux生态系统的标准基础恶意软件扫描器,并与其他优秀的开源安全工具集成。 但这里有一个诚实的事实:我是一名引擎开发者,而不是开源维护者。我花了多年时间专注于核心技术,但在建立社区方面还是个新手。我确信集成体验存在一些粗糙之处,命令行界面可以更好,文档也有漏洞。 这就是我需要你们帮助的地方。我希望得到你们的直言不讳的反馈。告诉我哪里有问题,哪里让人困惑,哪里缺失。我在这里学习。 感谢你的时间。 网站: [https://www.semanticsav.ai/](https://www.semanticsav.ai/) GitHub: [https://github.com/metaforensics-ai/semantics-av-cli](https://github.com/metaforensics-ai/semantics-av-cli)
1作者: lertsoft大约 1 小时前原帖
长时间潜水/阅读,第一次发帖 :D 我最近背包旅行穿越欧洲,决定在地图上标记我在每个城市前24小时内访问的地方以及我在这些地方拍摄的照片。 马德里: https://ron.nyc/blog/24hours-in-madrid 巴塞罗那: https://ron.nyc/blog/24hours-in-barcelona 柏林: https://ron.nyc/blog/24hours-in-berlin 巴黎: https://ron.nyc/blog/24hours-in-paris 附言:我仍在对页面进行性能改进,因此移动端使用体验还有些不够流畅。
1作者: linkshu大约 1 小时前原帖
为热爱《皇室战争》的朋友们打造了一个网站 <a href="https:&#x2F;&#x2F;clashroyalewordle.com&#x2F;" rel="nofollow">https:&#x2F;&#x2F;clashroyalewordle.com&#x2F;</a>,这是一个100%免费的Wordle风格游戏,无需下载: 经典模式:猜测5个字母的卡牌名称(6次尝试,颜色提示)+ 每日/练习选项。 像素模式:通过每次猜测逐步揭示卡牌图像(测试你的卡牌识别能力)。 表情符号/描述模式:解码表情符号或文本线索以找到正确的卡牌。 没有广告,支持手机和桌面使用,并且可以跟踪你的统计数据。对于增加更多模式(如卡牌稀有度过滤器)的反馈欢迎提出!
1作者: ilovetux大约 1 小时前原帖
我创建了LogSieve作为一个小实验:我能否构建一个完全在客户端运行的小应用程序,用于解析和可视化日志。<p>结果证明答案是肯定的。<p>只需将一个.log或.txt文件拖放到页面中,它就会在您的浏览器中进行解析、过滤和可视化——无需服务器、无需上传、无需依赖。它支持文本和正则表达式过滤、命名组字段提取、排序、汇总统计以及JSON/CSV导出。<p>您可以直接在GitHub Pages上打开它,或者克隆仓库后双击打开。 来源:<a href="https://github.com/notesofcliff/logsieve" rel="nofollow">https://github.com/notesofcliff/logsieve</a><p>作为一个“单一问题”的周末项目构建——它基本上“只是”900行HTML、CSS和JS。
1作者: aishu001大约 1 小时前原帖
为厌倦了零散攻略的DispatchGame玩家构建了<a href="https://dispatchgame.app" rel="nofollow">https://dispatchgame.app</a>——无需注册,提供实用信息: - 任务攻略(快速解决棘手目标)。 - 单位/装备指南(优化进阶设置)。 - 最新的游戏内活动解析(更新本周挑战)。 由一位玩家制作——欢迎反馈,是否需要添加统计追踪器或团队组合建议?
1作者: bcollins34大约 2 小时前原帖
Woz(旧金山)驻创始人招聘 我们正在开启一份非常酷的工作(稍微有点偏见)。 在Woz,我们建立了世界上首个AI应用工厂,能够在短短几小时内构建出商业级别的移动应用。 现在,我们将机会交给有抱负的创始人,挑战他们建立真正的、能够产生收入的应用业务。创始人将获得我们平台的全面内部访问权限、薪水、专门的市场营销预算,以及他们所产生的任何收入的可观分成。 这是一个难得的机会,可以像创始人一样在一家最近获得600万美元种子轮融资的YC初创公司中运作,身边是经验丰富的工程师和建设者,位于旧金山的核心地带。 我们正在寻找的人: - 一位能够独立完成、迭代和解决问题的技术构建者(有React Native和TypeScript经验者优先) - 有过产品、应用或业务发布经验的人,或者有独立构建项目的强大记录 - 理解市场推广和增长,尤其是创意或病毒式营销的人 - 渴望学习、实验,并与我们在旧金山的团队共同建设的人(至少在前三个月能够到现场工作) 感兴趣吗?请在这里提交您的信息。我们会与您联系。 [https://forms.gle/h8ZWjgRfQUpaTQf8A](https://forms.gle/h8ZWjgRfQUpaTQf8A)