返回首页
最新
Reddit的API在归档方面实际上已经失效。第三方应用程序已不复存在。Reddit多次威胁要切断对Pushshift数据集的访问。但目前有3.28TB的Reddit历史数据以种子的形式存在,我开发了一个工具,可以将其转化为您可以在自己的硬件上浏览的内容。
关键点:这个工具不会接触到Reddit的服务器。绝对不会。下载Pushshift数据集,在本地运行我的工具,获得一个完全可浏览的档案。可以在隔离的机器上运行,也可以在为您的局域网提供服务的树莓派上运行,甚至可以在您递给他人的USB驱动器上运行。
它的功能:从Reddit(.zst)、Voat(SQL)和Ruqqus(.7z)获取压缩数据转储,并生成静态HTML。没有JavaScript,没有外部请求,没有追踪。只需打开index.html即可浏览。想要搜索功能?运行带有PostgreSQL的可选Docker堆栈——仍然完全在您的机器上。
API与AI集成:完整的REST API,拥有30多个端点——帖子、评论、用户、子版块、全文搜索、聚合。还配备了一个MCP服务器(29个工具),以便您可以直接从AI工具查询您的档案。
自托管选项:
- USB驱动器/本地文件夹(只需打开HTML文件)
- 局域网内的家庭服务器
- Tor隐藏服务(2个命令,无需端口转发)
- 带HTTPS的VPS
- GitHub Pages用于小型档案
为什么这很重要:一旦您拥有数据,您就拥有它。没有API密钥,没有速率限制,没有服务条款的变化可以夺走它。
规模:每个实例数千万个帖子。PostgreSQL后端保持内存恒定,无论数据集大小如何。对于完整的23.8亿帖子数据集,可以按主题运行多个实例。
我是如何构建的:使用Python、PostgreSQL、Jinja2模板、Docker。在整个过程中使用Claude Code,作为AI辅助开发的实验。了解到工作流程是“信任但要验证”——它加速了无聊的部分,但您仍然拥有架构。
实时演示: [https://online-archives.github.io/redd-archiver-example/](https://online-archives.github.io/redd-archiver-example/)
GitHub: [https://github.com/19-84/redd-archiver](https://github.com/19-84/redd-archiver)(公有领域)
Pushshift种子:[https://academictorrents.com/details/1614740ac8c94505e4ecb9d88be8bed7b6afddd4](https://academictorrents.com/details/1614740ac8c94505e4ecb9d88be8bed7b6afddd4)
嗨!<p>Papercuts 让你可以部署 AI 代理,这些代理像真实用户一样在你的生产应用中流动。只需提供一个 URL,当出现问题时你会收到通知。<p>现代应用程序过于复杂,无法依赖脆弱的选择器。老实说,我认为唯一让人感到安全的方法就是在生产环境中使用能够像人类一样感知和导航的 AI 代理进行测试。
我开发这个插件是因为在使用AI辅助编码时,我花在阅读不熟悉代码上的时间远远超过写代码的时间。<p>主要的问题在于评论是用非母语书写的:使用外部翻译工具会打断专注,而许多编辑器工具会翻译整行或缓冲区,而不是实际的评论。<p>这个插件使用Tree-sitter精确检测评论节点,并在鼠标悬停时进行内联翻译,从而保持代码阅读的连续性。
基于Refactoring English的2025年HN人气竞赛排名构建了这个RSS聚合器。如果大家对其他排名(如前10名、前200名等)感兴趣,我很乐意添加它们。<p>[1] <a href="https://news.ycombinator.com/item?id=46478377">https://news.ycombinator.com/item?id=46478377</a>
伊朗可以关闭IPv6,但他们无法关闭的是思想。杰克·多尔西的BitChat正是人们应该准备好使用的那种工具。
我为《Dreadmyst》(一款最近的动作角色扮演游戏)构建了一个模拟器,旨在帮助玩家建模复杂的角色属性和伤害计算。在这类游戏中,计算最终的每秒伤害(DPS)涉及许多嵌套的乘法和加法逻辑,这在游戏中并不透明。我希望构建一个用户界面,使这些数学计算变得动态和可视化。
1. 处理复杂的依赖关系图(例如,属性A → %防御 → 固定伤害)。
2. 所有计算均在客户端进行,以实现零延迟的用户界面更新。
即使你不玩这个游戏,我也非常希望能收到关于处理大量相互依赖变量的用户界面和用户体验的反馈!
大家好!<p>似乎有一个持续的趋势(以及我的直觉)是,许多公司正在从聊天机器人转向能够实际执行操作的人工智能代理——例如调用API、修改数据库、进行购买等。我很好奇:如果你们在生产环境中使用这些代理,除了防止提示注入的安全层之外,你们是如何处理的?<p>问题:<p>- 有什么措施可以阻止你的代理执行意外操作(例如删除记录、未经授权的交易)?
- 你们是否遇到过代理失控的情况,导致损失了资金或数据?
- 目前的工具(身份和访问管理政策、审批工作流程、监控)是否足够,还是存在漏洞?<p>我想弄清楚这是否是一个值得解决的实际问题,或者现有的方法是否已经足够有效。