最新

20 分•作者: mebkorea•2 个月前•原帖

我一直在抓取241个英国地方政府的规划门户网站——到目前为止已处理260万个决策。英国的规划数据在技术上是公开的。但实际上，这些数据被锁定在400多个不同的地方政府门户网站后面，有些仍在使用看起来像是2004年就开始运行的定制ASP.NET，有些则在AWS WAF后面，所有网站的架构都有细微的不同。我花了四个月的时间进行抓取。目前我已经覆盖了241个地方政府，收集了英格兰、苏格兰和威尔士的260万个决策。抓取问题大多数英国地方政府使用几种门户系统中的一种，Idox是最常见的。从理论上讲，这使得事情变得简单。但在实践中，每个地方政府的配置都不同，有些通过TLS指纹识别阻止非浏览器请求，有些设置了速率限制，10分钟内就会被封禁，还有一些则在运行上述的定制ASP.NET。我最终编写了几个抓取工具：一个基于标准请求的抓取器，一个基于Playwright的抓取器，专门用于那些阻止任何看起来不像真实浏览器请求的地方政府，还有一个用于TLS指纹识别的curl_cffi抓取器。有些地方政府我仍然无法抓取。利物浦的门户网站在AWS WAF后面，并且有一个JavaScript挑战。我有一个有效的基于Playwright的抓取器，可以解决这个挑战并重用cookies，但WAF在大约10个请求后会对IP进行速率限制，然后封禁我一天。因此，我从一次旧的抓取中获得了6万条利物浦的决策数据，但没有简单的方法来增加更多。我发现的内容审批率是大多数人关注的内容。全国范围内的审批率约为88%，但在地方政府内部的不同选区之间差异很大，而不仅仅是地方政府之间的差异。更有趣的发现来自于决策时间的数据。在119个英格兰和威尔士的地方政府中，2025年有36.5%的家庭扩建申请未能在法定的8周目标内完成，较2019年的27.9%有所上升。吉尔福德是最糟糕的，66%的决策超出了目标，平均耗时13.3周。现在的情况一个免费的邮政编码查询工具和收费的PDF报告（19英镑/79英镑）。到目前为止没有付费客户，这没关系。我一直专注于数据质量和覆盖范围。如果你想了解更多，可以访问网站planninglens.co.uk。关于抓取方面的任何问题都可以问我——那里有很多有趣的问题。

展示HN：BeVisible.app - 自运行的博客

2 分•作者: evanyang•2 个月前•原帖

问HN：我们什么时候可能不再需要洗衣服、叠衣服或做饭？

2 分•作者: samarthv•2 个月前•原帖

在这个时刻，我感觉在接下来的十年或二十年内，我们可能会拥有超级智能和机器人来完成我大部分的工作。我的问题有点搞笑，但你们估计在二级国家中，能够完成你们工作的机器人普及会有多快呢？

欧盟要求谷歌在安卓系统上开放人工智能；谷歌称这是“无端干预”。

1 分•作者: vrganj•2 个月前•原帖

展示HN：构建了一种本地优先的方法，使AI上下文在各工具之间可重用

1 分•作者: bonjourmr•2 个月前•原帖

在几个周末的时间里，我构建了ProxVanta，因为我一次又一次地遇到同样的问题：有用的AI上下文散落在各处。一部分在GitHub，一部分在Slack，还有一些在文档中，部分存在于人们的脑海里，还有一些是人们发帖告诉大家他们做错了的内容。这个想法是使这些上下文更加可移植，并能够在团队和工具之间即插即用，采用本地优先的方法，以便它可以在ChatGPT、Codex、Claude、OpenClaw等任何具有MCP服务器连接的地方运行。如果你希望从代码库中提取提示/上下文配置，以便你的团队能够实际查看和编辑，或者在不同版本之间进行功能标记，它也提供了API。对我来说，一个重要的方面是更加关注令牌的使用，并在真正对你和你的团队重要的事情上更早地获得更好的答案。我还在知识方面进行工作，以便上下文和工作流程能够更安全地使用正确的私有/共享知识，而不需要将所有内容硬编码到代码中。我们特别希望与那些想要使用知识图谱、共享代理上下文和工作流程的团队进行交流，并希望这些能够通过我们的系统传递到任何AI运行时，无论是本地还是托管，而不需要我们对底层私有知识本身有可见性。目前仍处于Alpha阶段，请耐心等待，但如果这听起来有用，我非常希望能收到反馈。如果有人想了解更多信息或进行演示，或者希望获得免费访问权限，我很乐意提供。

PayPal的40亿美元稳定币主要由去中心化金融（DeFi）收益农场者持有。

1 分•作者: knivef•2 个月前•原帖

CrowdStrike Linux 代理：提升性能的简单方法

1 分•作者: SilverPlate3•2 个月前•原帖

我喜欢Crowdstrike，它真是太棒了。不过，它的Linux代理并不是最好。我创建了一个开源的Linux EDR解决方案，我对此非常满意。因此，我想知道为什么Crowdstrike不去模仿它、与它合作或者直接使用它呢？我认为这可以显著改善Linux代理。我创建的开源项目链接：https://github.com/Cybereason-Public/owLSM

中国的防火长城正在全国范围内屏蔽 .icu 顶级域名。

3 分•作者: domainers•2 个月前•原帖

展示 HN：zot – 又一个编码代理工具

4 分•作者: patriceckhart•2 个月前•原帖

我为什么又构建了一个编码代理工具？：<a href="https://dev.to/patriceckhart/zot-why-i-built-another-coding-agent-harness-1n0h" rel="nofollow">https://dev.to/patriceckhart/zot-why-i-built-another-coding-...</a><p>Github 仓库：<a href="https://github.com/patriceckhart/zot" rel="nofollow">https://github.com/patriceckhart/zot</a>

生成是实现数据高效感知所必需的

1 分•作者: E-Reverance•2 个月前•原帖

我创建了一个商业创意验证工具。现在我有点害怕，觉得我的创意可能是个坏主意。

1 分•作者: SoloVault•2 个月前•原帖

展示HN：屏幕时间作为二元网格评分卡

3 分•作者: yarsanich•2 个月前•原帖

MarkNext 规范 v1.0

1 分•作者: modinfo•2 个月前•原帖

GTFOBins（Get The F*** Out Bins）是一个在线资源，旨在帮助安全研究人员和渗透测试人员识别和利用在Linux和Unix系统中可用的二进制文件。该网站列出了可以被攻击者利用的常见命令行工具和程序，提供了详细的使用说明和示例，以帮助用户在进行安全测试时更有效地利用这些工具。

38 分•作者: StefanBatory•2 个月前•原帖

展示HN：Gate – AI工作者在可视化工作空间中处理开发工单

2 分•作者: SolidDark•2 个月前•原帖

我们对2026年4月事件的回应

1 分•作者: filleokus•2 个月前•原帖

芭芭拉·利斯科夫：数据抽象、迪克斯特拉、分布式系统

1 分•作者: signa11•2 个月前•原帖

展示HN：互联网海盗的Netflix

1 分•作者: lsreeder01•2 个月前•原帖

Plank 是为网络盗版者打造的 Netflix。其目标是为希望拥有自己消费的媒体的人们提供与 Netflix 同等水平的用户界面和用户体验。 Plank 让你可以： - 浏览电影和电视剧的目录，并在下载的同时一键流媒体播放 - 在目录或你的媒体库中搜索任何电影或节目 - 管理你的媒体，包括用更高质量的种子重新获取媒体文件 - 添加朋友和家人到你的个人资料中，或为他们创建一个个人资料 - 过滤低质量或不可信的种子，添加你想要的任何种子索引器 - 添加10种不同语言的字幕一切都是本地运行，直接在设备上进行。我甚至没有设置 Posthog 或其他任何东西。如果你想试用一下，我这里有一个只读演示： [https://plank.lsreeder.com/](https://plank.lsreeder.com/) 请注意，出于法律原因，演示网站实际上并不流媒体播放任何媒体。你可以在这里阅读我们的文档，以启动你自己的实例： [https://plank-docs.lsreeder.com/](https://plank-docs.lsreeder.com/)

构建一个受人喜爱的内部团队

1 分•作者: axi0m•2 个月前•原帖

庞贝考古学家利用人工智能重建在火山喷发中遇难的男子形象

1 分•作者: razorbeamz•2 个月前•原帖

上一页 1...1031 1032 1033 1034 1035...6985 下一页