1作者: theonlyt3大约 1 个月前原帖
嗨,HF,我是Terrell,我们开发了一个开源应用程序,允许开发者创建自己的操作员,前端使用Next.js/React,后端使用Flask。其目的是简化虚拟桌面的启动(如Xfce、VNC)并利用计算机使用模型(如OpenAI的模型)自动化桌面交互。 目前已经有许多很酷的工具可以让你构建类似操作员的体验,但它们通常只自动化网页浏览器的操作,或者不是开源的/启动成本很高。Spongecake允许你自动化桌面交互,并且完全开源,这将帮助: - 希望构建自己计算机使用/操作员体验的开发者 - 希望在缺乏或没有API的桌面应用程序中自动化工作流程的开发者(在供应链和医疗等行业非常常见) - 希望为具有VPN、防火墙等限制的本地环境企业自动化工作流程的开发者(在医疗、金融等行业常见) 技术细节:从技术上讲,这实际上是一个指向后端服务器的网页浏览器,该服务器1)管理启动和运行预配置的Docker容器,2)管理与计算机使用代理的所有通信。[1] 通过启动具有适当端口的Docker容器来处理,以打开VNC查看器(以便查看桌面)、API服务器(在容器上执行代理命令)、Marionette端口(帮助抓取网页)和socat(帮助进行端口转发)。[2] 通过将虚拟机的屏幕截图发送到计算机使用代理,然后通过API服务器将适当的操作(例如,滚动、点击)从代理发送到虚拟机来处理。 我们遇到的一些有趣的技术挑战: - 并发性 - 我们希望能够同时启动N个代理以并行完成任务(尤其考虑到当前计算机使用代理的速度)。这引入了大量的复杂性,因为端口被占用的可能性显著增加。 - 滚动问题 - 该模型在判断何时滚动时表现不佳,会在非常长的页面上滚动很多次。为了解决这个问题,我们启动了一个Marionette服务器,并向代理提供了一个工具,用于提取网站的DOM。这样,代理可以提取网站的DOM,而不是一直滚动到页面底部,从而利用这些信息找到正确的答案。 接下来是什么?我们正在努力在用户界面中添加支持,以便在自己的机器上本地运行,并启动其他桌面环境,如Windows和MacOS。我们还开始着手集成Anthropic的计算机使用模型。我们可以构建许多其他功能,但首先想把这个发布出来,看看其他人希望什么。 非常期待你的想法和反馈。到目前为止,参与这个项目非常有趣,希望其他人也能觉得它和我一样酷 :) 这是克隆链接:<a href="https://github.com/aditya-nadkarni/spongecake">https://github.com/aditya-nadkarni/spongecake</a>
7作者: NabilChiheb大约 1 个月前原帖
嘿,HN 经过多年在软件工程领域的工作以及参与招聘,我注意到了一个令人沮丧的模式: 公司往往依赖简历和LinkedIn上的职位头衔来寻找开发者,而不是关注他们实际构建的项目。 因此,我开发了GitMatcher。 它分析GitHub个人资料,以根据以下内容筛选开发者: - 他们的公开仓库 - 提交历史 - 代码的原创性和实用性 - 显示一致性和真实技能的模式 没有关键词,没有职位头衔,只有代码。 如果你是: - 一名厌倦了简历轮盘的招聘人员 - 一位寻找技术合伙人的创始人 - 一名寻找真实贡献者的开源软件维护者 GitMatcher将会对你非常有用。 现在还处于早期阶段,我非常希望能听到你的反馈,特别是关于在发现开发者时你最关心哪些信号。
1作者: louisjoejordan大约 1 个月前原帖
这是我用它点披萨的视频:<a href="https://x.com/elevenlabsio/status/1909300782673101265" rel="nofollow">https://x.com/elevenlabsio/status/1909300782673101265</a><p>ElevenLabs MCP 服务器通过文本提示为 Claude 和 Cursor 提供了访问 ElevenLabs API 的权限。试试看,告诉我你的想法。
1作者: pk97大约 1 个月前原帖
快速搭建了这个MCP服务器(使用Cline)来进行网页无障碍审计。您可以将结果用于代理循环,为AI助手提供背景信息,以帮助它们解决无障碍问题,从而使网络对所有人更加包容。<p>一如既往,欢迎提交拉取请求,让这个项目变得更好!