使用TRL,现在对大语言模型(LLMs)进行强化学习微调变得简单,但选择合适的奖励函数仍然是最薄弱的环节。
Zeno是一个开源工具包,旨在为大语言模型的强化学习提供可验证的、确定性的奖励函数。
虽然初始版本专注于Python代码生成,但目标更为广泛:使大语言模型的强化学习奖励设计在各个领域(数学、检索、推理、工具使用等)中透明、模块化和可扩展。
目前Zeno包含的内容:
- 用于Python代码的可审计、无状态奖励函数 - 包括文档字符串、ruff代码检查、类型提示、递归等功能。
- 可以直接与Huggingface的TRL或任何强化学习循环配合使用 - 根据需要插入奖励函数。
- 采用MIT许可证,功能简洁。
路线图:
Python代码只是起点。关于数学问题解决、规划和自主行为的扩展在待办事项中。
代码库: [https://github.com/think-a-tron/zeno](https://github.com/think-a-tron/zeno)
文档和更多细节请查阅自述文件。
欢迎提供评论、批评和实际应用案例,特别是如果您想超越代码的限制。
返回首页
最新
我想进入人工智能基础设施领域。请问你正在从事或使用哪些人工智能基础设施项目?你认为需要解决的主要问题有哪些?
对于那些对实用的人工智能工作流程感兴趣的人,我刚刚制作了一个简短的视频,展示了我如何使用 Raycast 作为 MCP 客户端,通过自然语言控制我的待办事项列表。<p>跳到 8:30 分钟可以看到精彩内容——通过与我的计算机对话,使用 Raycast 新发布的 MCP 客户端(大约两周前发布)与 Asana 互动,创建、拆分和安排任务。这不是一个官方集成,但展示了 MCP 的潜力。<p>想知道是否还有其他人正在尝试将 MCP 应用于日常工作流程?很想听听你们的使用案例!
嘿,HN,
我们开发了Cyberdesk——一个开源API,用于构建可以控制完整虚拟桌面的计算机代理:点击、输入、滚动等等。
如果您正在开发一个需要操作真实应用程序(桌面应用、浏览器中的网页应用等)的代理,这将为您省去设置和扩展虚拟机的麻烦。只需调用我们的API来启动桌面并发送操作。
我们的整个基础设施、前端、后端和SDK都是开源的。
GitHub: [https://github.com/cyberdesk-hq/cyberdesk](https://github.com/cyberdesk-hq/cyberdesk)
文档: [https://docs.cyberdesk.io](https://docs.cyberdesk.io)
演示: [https://cyberdesk.io](https://cyberdesk.io)
如果您正在:
- 构建基于截图的计算机使用代理
- 厌倦了将Docker、VNC和云基础设施拼凑在一起
- 对计算机使用感到好奇
那么Cyberdesk非常适合您。
我们还处于早期阶段,非常希望得到反馈——无论是用户体验、API设计、缺失的功能还是性能方面。
欢迎随时提问。谢谢!
在一个科技迅猛发展的世界中,教育却依然顽固地停滞不前。我们今天所依赖的教育结构,仍然是以课程大纲为基础、以教材为重、以考试为驱动,几乎没有脱离工业时代的根基。尽管交通、医学、战争和通信等领域已经跃升到全新的范式,教育仍然要求学生以统一的方式阅读、记忆和再现知识,仿佛所有的学习者都是一样的……
完整文章请见: https://groco.codeaetheris.com/blogs/future-of-education-modular-voice-personal
我知道网络钓鱼可以发生在任何平台上,但这个案例让我印象深刻。我收到了一个典型的垃圾短信,链接到一个虚假的银行登录页面,托管在一个默认的 Vercel 域名上,界面非常粗糙。它要求输入用户名和密码,然后会提示输入验证码。感觉像是有人正在实时收集凭证。
网站地址:scfedcsoun.vercel.app(请勿访问)
我在一周多前通过 Vercel 的滥用报告表单进行了举报,但没有得到任何确认,也没有被下架。
这种情况服务提供商会忽视吗?我在这里发帖是为了提高关注度,并看看是否还有其他人有类似的经历。