1作者: sourdesi21 天前原帖
大家好,我开发了 VibeScrape——它可以接受一个网站的 URL 和一个描述您想要数据的 JSON 模式,然后分析页面,编写真实的 Python 代码来提取这些数据,并不断优化代码,直到输出准确。 虽然现在有很多工具(例如 Firecrawl)将整个网页的 HTML 提交给大型语言模型(LLM)以提取数据,但我始终觉得这是一种非常缓慢且昂贵的方法。 另一方面,手动编写网页抓取代码在目前看来显得有些过时。这类代码编写起来非常繁琐,而且一旦网页的布局稍有变化,就会变得毫无用处。 VibeScrape 旨在自动化编写这类代码的过程。 1. 获取渲染后的 HTML——与浏览器看到的视图相同。 2. 让 LLM 从 HTML 中提取数据到您的目标 JSON 模式(“真实数据”)。 3. 生成 Python 抓取器代码以重现该“真实数据”输出。 4. 运行并将结果与真实数据进行比较。 5. 自动优化代码,直到输出匹配。 我发现让 LLM 完全控制代码生成和迭代过程的方式,对于我测试过的许多网站生成有效的抓取器代码效果很好! 不过,它在处理分页、验证码、无限滚动等方面仍然存在一些限制。希望能从 HN 社区获得一些早期反馈,看看这个工具是否有价值。网站上有一个促销代码 FIRST5,可以让您免费获得 5 个积分,但我也很乐意给任何联系我(contact@vibescrape.ai)的人提供更多积分! 谢谢!
1作者: bix621 天前原帖
大家好, 我有一个用11ty制作的个人网站,托管在Cloudflare上。之所以这样设置,是因为非常简单且免费。网站上只有几页文字。 我计划对网站进行一些扩展,添加像照片画廊和新闻通讯/博客这样的内容。因此,我在考虑将其迁移到一个托管服务器上,所以想问问大家有没有推荐的服务。我有一些(旧的)系统管理员经验,所以我对设置这些东西比较熟悉,但我不想花太多时间在脚本编写上;对我来说,内容更重要。我确实梦想着长期添加一些功能,比如自己的分析工具、机器人坑、邮件服务器等,但我们看看我有多少时间和优先级吧 :) 我在美国西部,如果有非大规模云服务提供商的推荐会很好。希望能保持低成本。
1作者: TopSecretHacker21 天前原帖
我创建了CVE Daily,以缩短CVE的分类时间。它从NVD和OSV获取信息,将厂商的建议放在前面,并提供关于现在应该修补或缓解的简短指导。此外,还有一个传递升级助手,它使用deps.dev图表来建议在引入易受攻击的依赖项时的最低安全主机版本。 亮点: - NVD和OSV信息聚合 - 厂商建议优先显示 - 简明、中立的“现在该做什么” - KEV徽章和优先级说明 - 标签/过滤器(厂商、产品、CWE) - 受影响产品的EOL/EOS上下文 希望能得到安全工程师、SRE和IT管理员的反馈:如果这对你有帮助,请与团队分享;如果没有,请告诉我原因。