1作者: Sai_Praneeth9 个月前原帖
使用TRL,现在对大语言模型(LLMs)进行强化学习微调变得简单,但选择合适的奖励函数仍然是最薄弱的环节。 Zeno是一个开源工具包,旨在为大语言模型的强化学习提供可验证的、确定性的奖励函数。 虽然初始版本专注于Python代码生成,但目标更为广泛:使大语言模型的强化学习奖励设计在各个领域(数学、检索、推理、工具使用等)中透明、模块化和可扩展。 目前Zeno包含的内容: - 用于Python代码的可审计、无状态奖励函数 - 包括文档字符串、ruff代码检查、类型提示、递归等功能。 - 可以直接与Huggingface的TRL或任何强化学习循环配合使用 - 根据需要插入奖励函数。 - 采用MIT许可证,功能简洁。 路线图: Python代码只是起点。关于数学问题解决、规划和自主行为的扩展在待办事项中。 代码库: [https://github.com/think-a-tron/zeno](https://github.com/think-a-tron/zeno) 文档和更多细节请查阅自述文件。 欢迎提供评论、批评和实际应用案例,特别是如果您想超越代码的限制。
1作者: daverad9 个月前原帖
对于那些对实用的人工智能工作流程感兴趣的人,我刚刚制作了一个简短的视频,展示了我如何使用 Raycast 作为 MCP 客户端,通过自然语言控制我的待办事项列表。<p>跳到 8:30 分钟可以看到精彩内容——通过与我的计算机对话,使用 Raycast 新发布的 MCP 客户端(大约两周前发布)与 Asana 互动,创建、拆分和安排任务。这不是一个官方集成,但展示了 MCP 的潜力。<p>想知道是否还有其他人正在尝试将 MCP 应用于日常工作流程?很想听听你们的使用案例!
3作者: sgtwompwomp9 个月前原帖
嘿,HN, 我们开发了Cyberdesk——一个开源API,用于构建可以控制完整虚拟桌面的计算机代理:点击、输入、滚动等等。 如果您正在开发一个需要操作真实应用程序(桌面应用、浏览器中的网页应用等)的代理,这将为您省去设置和扩展虚拟机的麻烦。只需调用我们的API来启动桌面并发送操作。 我们的整个基础设施、前端、后端和SDK都是开源的。 GitHub: [https://github.com/cyberdesk-hq/cyberdesk](https://github.com/cyberdesk-hq/cyberdesk) 文档: [https://docs.cyberdesk.io](https://docs.cyberdesk.io) 演示: [https://cyberdesk.io](https://cyberdesk.io) 如果您正在: - 构建基于截图的计算机使用代理 - 厌倦了将Docker、VNC和云基础设施拼凑在一起 - 对计算机使用感到好奇 那么Cyberdesk非常适合您。 我们还处于早期阶段,非常希望得到反馈——无论是用户体验、API设计、缺失的功能还是性能方面。 欢迎随时提问。谢谢!
1作者: code_aetheris9 个月前原帖
在一个科技迅猛发展的世界中,教育却依然顽固地停滞不前。我们今天所依赖的教育结构,仍然是以课程大纲为基础、以教材为重、以考试为驱动,几乎没有脱离工业时代的根基。尽管交通、医学、战争和通信等领域已经跃升到全新的范式,教育仍然要求学生以统一的方式阅读、记忆和再现知识,仿佛所有的学习者都是一样的…… 完整文章请见: https://groco.codeaetheris.com/blogs/future-of-education-modular-voice-personal
1作者: infecto9 个月前原帖
我知道网络钓鱼可以发生在任何平台上,但这个案例让我印象深刻。我收到了一个典型的垃圾短信,链接到一个虚假的银行登录页面,托管在一个默认的 Vercel 域名上,界面非常粗糙。它要求输入用户名和密码,然后会提示输入验证码。感觉像是有人正在实时收集凭证。 网站地址:scfedcsoun.vercel.app(请勿访问) 我在一周多前通过 Vercel 的滥用报告表单进行了举报,但没有得到任何确认,也没有被下架。 这种情况服务提供商会忽视吗?我在这里发帖是为了提高关注度,并看看是否还有其他人有类似的经历。