10作者: PrateekJ17大约 1 个月前原帖
我们并没有教CUA去解决“我不是机器人”的挑战。是的,这种讽刺我们也明白。 Coasty在OSWorld基准测试中达到了82%的成绩,这在真实桌面环境中运行的计算机使用代理中是最先进的(SOTA)。 验证码、浏览器弹窗、Cookie横幅,所有这些会干扰其他代理的东西?我们的代理则……轻松应对。如果你感兴趣,可以查看重播链接:https://coasty.ai/share/1cd404ae-3fcb-4d7f-b9d4-dac7aa26fc6d
1作者: soudk大约 1 个月前原帖
嘿,HN! Read the Room 是一款匿名社交投票应用,允许任何人根据不同的代际、国家和城市来筛选或比较结果。 举个例子:在 1-5 的评分尺度上评价“远程工作是否被高估?”并查看奥斯汀的 Z 世代是否与柏林的千禧一代达成一致。 隐私优先的架构:响应历史记录存储在您的设备上,只有汇总数据会发送到服务器。我们旨在实现接近“零知识投票”,采用 Passkey 认证(无需密码,无需账户)。每个投票的响应以“城市 X 在桶 Y 中投票 +1”的形式提交,而不将用户与响应关联,也不记录他们最初是否回答了该问题(所有这些都在设备上处理)。该应用使用 Flutter 和 Supabase 开发,遵循 AGPLv3 许可证。 我花了几年的时间慢慢构建这个应用,因为我厌倦了伪装成监控技术的大众社交媒体,我想在开源软件的范式下构建一个“人类生物指示器”的真实样貌。它的设计是非营利性的,类似于维基百科。 目前我们在 50 个国家拥有 500 次安装,约有 100 名每周活跃用户,大多数用户来自美国和加拿大。不过,我们希望能够进一步多样化。目前仅支持英语,但我们正在设计多语言支持,并将在获得更多关注后实施。 非常希望听到您的反馈,也乐意回答任何问题! 了解更多信息: [https://readtheroom.site](https://readtheroom.site) 代码: [https://github.com/readtheroom-knowtheworld/readtheroom-app](https://github.com/readtheroom-knowtheworld/readtheroom-app) iOS 下载: [https://apps.apple.com/app/id6747105473](https://apps.apple.com/app/id6747105473) Android 下载: [https://play.google.com/store/apps/details?id=com.readtheroom.app](https://play.google.com/store/apps/details?id=com.readtheroom.app)
1作者: dttai大约 1 个月前原帖
越南的家谱结构包含一些西方平台不支持的特性:农历、层级宗族分支、自动生成编号,以及用于日期标注的60年生肖周期。<p>AncestorTree能够处理这些特性。该项目在24小时内通过协调8个AI代理,分为7.5个冲刺完成。<p>技术栈:Next.js 16 + React 19 + TypeScript + Supabase + Vercel。每月费用为$0。<p>包含13个PostgreSQL表,77个文档化需求,4个通过RLS(行级安全)强制执行的权限角色。基于深度优先搜索的仪式职责轮换。家庭关系面板(每个档案的父母、兄弟姐妹、配偶和子女)。层级树布局。带有可分享URL的分支过滤器(?root=id)。树形范围编辑器:用户与其个人资料关联,编辑权限限制在其子树内——通过RLS中的递归PostgreSQL CTE强制执行。<p>采用MTS-SDLC-Lite构建:设定阶段门,代码前进行设计审查。没有治理的相同代理 = 可信但不稳定。有治理的情况下 = 1天内可投入生产。<p>采用MIT许可证。大约30分钟内即可分叉和部署。<p>欢迎反馈。
1作者: memograph大约 1 个月前原帖
嗨,HN, 我一直在构建AI代理和助手,但遇到了一个令人沮丧的问题:它们不会大声失败,而是悄悄地忘记事情。 用户需要重新解释偏好设置,代理会与之前的回答相矛盾,且上下文在没有明确原因的情况下重置。 我开发了Memograph CLI作为调试工具,以分析对话记录并显示: - 代理忘记了什么 - 连续性在哪里中断 - 矛盾和重复的上下文 - 由于重新提示而导致的估计令牌浪费 它可以在本地运行,支持纯文本或JSON格式的记录。 示例: ``` $ memograph ``` 输出: ``` 认知漂移评分:41/100 遗忘的偏好:3 令牌浪费:29% 破坏信任的矛盾:1 ``` 目标不是替代你的代理框架,而是让开发者能够看到内存失败的情况。 代码库:[https://github.com/memographAI/Memograph-CLI](https://github.com/memographAI/Memograph-CLI) 非常希望能收到反馈,特别是来自正在生产环境中构建代理的人的意见。
1作者: yuni_aigc大约 1 个月前原帖
我开发了一个AI视频生成器,它可以在一次生成中编排多个镜头,而不是典型的“一个提示 → 一个剪辑”模型。 它的功能包括: - 多镜头叙事:每次生成最多可包含6个镜头,每个镜头都有自己的提示和时长 - 参考驱动的一致性:上传3张参考图像以锁定角色外观和风格 - 同时支持4种输入方式:文本 + 图像(最多9张) + 视频剪辑(最多3个) + 音频(最多3个) - @参考系统:为每个输入文件分配特定角色(例如,@Image1用于角色,@Video1用于镜头运动) - 输出:2K分辨率,24帧每秒,具有原生音频同步和口型同步 问题在于:现有的AI视频工具生成的是单独的孤立剪辑。如果想要一个三镜头的故事?需要生成三次,希望角色保持一致,然后手动拼接。Sora 2(每月20美元)一次只给你一个镜头。Runway有编辑套件,但没有多镜头生成功能。 Dola Seed 2.0让你可以提前定义完整的叙事弧。每个镜头都有自己的指导。角色的一致性来自参考系统,而不是运气。 从技术角度来看,值得关注的权衡是多镜头一致性与每个镜头灵活性之间的平衡。我们在镜头之间使用参考条件,而不是单一的整体生成,这样可以在保持约90%角色一致性的同时,提高每个镜头的质量。 欢迎免费试用(前3次生成无需注册):[https://dolaseed.site](https://dolaseed.site) 期待反馈,特别是关于多镜头一致性质量和参考系统用户体验的意见。
1作者: naxtsass大约 1 个月前原帖
嗨,HN, AI视频已经达到了一个“空中时刻”,你今天就可以实际使用。我们构建了seevideo.dance,以弥合研究人员与创作者之间的差距,整合了目前存在的两个最强大的模型:Kling 3.0和Seedance 2.0。 为什么这两个模型会颠覆行业: Kling 3.0(物理之王):这不仅仅是“生成像素”。Kling 3.0的新物理引擎处理复杂的生物运动和流体动力学,其真实感达到了曾被认为需要数年才能实现的水平。其电影级4K输出和一致的人物渲染为AI电影摄影设定了新的黄金标准。 Seedance 2.0(速度与创造力的野兽):由字节跳动最新架构驱动,Seedance 2.0可以说是世界上最快的高保真模型。它对复杂提示的遵循和革命性的运动控制,能够实现精准的导演意图,而普通模型根本无法匹敌。 我们在SeeVideo所构建的: 我们不仅仅构建了一个API封装;我们构建了一个专业的电影工作空间。 高速4K管道:为Kling的高保真输出优化的渲染路径。 导演工具包:为Seedance的运动向量提供高级参数调优。 无订阅自由:我们相信精英技术应该是可获取的。按需付费,没有月费陷阱,只有原始的生成能力。 技术挑战:扩展GPU集群以处理Kling 3.0复杂的物理模拟,同时保持Seedance 2.0的近乎即时响应是我们最大的障碍。我们希望HN社区能够对管道进行压力测试,并给我们反馈这些模型的时间一致性。 网站: [https://seevideo.dance](https://seevideo.dance)
2作者: nunobrito大约 1 个月前原帖
你好,<p>你在使用XMPP吗?<p>如果是的话,你最喜欢连接哪些服务器?
3作者: NoNameHaveI大约 1 个月前原帖
好消息。在经历了一段意外较长的失业期后,我有95%的把握会收到一份产品负责人的合同工作邀请。这个职位主要涉及监督用Ada编写的代码的开发和维护。尽管我有超过十年的C/C++/汇编语言经验,但我对Ada完全没有经验。我怀疑自己会写很多Ada代码,但我相信我需要学习Ada。 以下是我的问题: 1. 阅读代码通常比较简单。然而,所有软件都需要领域知识。在开始新的角色时,你是如何快速提升自己的领域知识的? 2. 如果你了解Ada,你推荐哪些学习Ada的资源? 3. 在学习Ada时,有哪些陷阱是你建议注意的?
1作者: digitalegoai大约 1 个月前原帖
嘿,HN, Crewly Codes 是一个人工智能产品开发工作流程,在编写代码之前,AI 会先规范工作内容。 Morgan(AI 产品经理)将您的想法转化为结构化的规范——用户故事、验收标准、边缘案例。您锁定规范后,DevCrew 进行构建,QA 进行验证。您可以实时观看进展,也可以稍后返回查看完成的代码。 我们的论点是:大多数 AI 编码失败都是由于规范失败。AI 构建了错误的东西,因为没有人定义“完成”的标准。Morgan 在一开始就强制明确这一点。 这是一个多智能体但有序的流程——顺序交接,保持共享上下文,而不是并行混乱。 该系统运行在 Claude Code 和 Codex 上,提供免费使用层级。