4作者: devon_c8 个月前原帖
v1.0.0: <a href="https://github.com/dcrebbin/meta-vision-api/releases/tag/1.0.0">https://github.com/dcrebbin/meta-vision-api/releases/tag/1.0.0</a><p>之前的实现非常不稳定,使用了一个书签小工具和两年前的混淆过的消息类来监控聊天,而且仅限于图像消息。<p>新版本是一个适用于 Chrome 和 Firefox 的浏览器扩展,您可以在一个备用的 Facebook 账户上运行它,能够监控新的聊天和图像消息,如果在通话中,还可以进行视频监控。<p>您可以创建一个群聊,并使用一种特殊的方法(具体说明见自述文件)来强制眼镜识别新群组,这样就可以通过 Hey Meta 向 _____(ChatGPT、Perplexity 或您命名的聊天)发送消息/照片。<p>用户界面中有设置可以更改 AI 聊天提供者、模型,以及是否通过文本转语音提供者(OpenAI、11labs 或 Minimax)生成和发送音频。<p>我还添加了视频监控功能:您可以拨打群聊,并让扩展监控视频输出,每秒向其中一个提供者发送一张照片(或自定义内部设置)。<p>在原项目中,我确实与 Reality Labs 团队进行了面试,但由于各种原因,我最终决定退出该过程。<p>不过,请告诉我您的想法!<p>计划中的功能已在问题列表中列出,功能前缀为: <a href="https://github.com/dcrebbin/meta-vision-api/issues">https://github.com/dcrebbin/meta-vision-api/issues</a>
1作者: bag_boy8 个月前原帖
我昨天使用了ChatGPT的高级语音,结果对更新感到既惊讶又失望。<p>旧版的高级语音虽然有些机械,但却有种神奇的感觉。人类不可能如此积极和一致,这正是让体验变得美妙的原因!<p>它并不需要听起来像人类。<p>新的语音在对话中开始使用“嗯”和“啊”。我问了它一个简单的问题,它在一句话的回答中毫无理由地说了“嗯”。听起来就像它刚抽完一根烟。<p>我无法理解他们为什么要这样做。这似乎是个业余的错误。
1作者: fizzbuzz078 个月前原帖
我用不到1000行纯Python代码构建了一个最小化的自主代理——没有使用任何框架、SDK或特殊导入。 它仅使用大型语言模型(LLM)采样来: - 自主编写、测试和推送代码 - 阅读GitHub问题并添加新功能,针对这些问题进行端到端的拉取请求(PR) - 解决git和环境问题,并自主回溯 - 执行网络研究任务(例如,从Reddit收集小众趣闻) 一些架构细节:它使用了: - 基于ReAct的迭代推理与工具使用(网络搜索、文件操作、代码执行) - 短期和长期记忆管理以提供上下文 - 各种工程技巧来处理从LLM转变为代理时出现的意外边缘情况 最终结果是一个简单的自包含代码库,向人们展示了从“语言模型”到“自主代理”所需的核心逻辑,并解构了围绕代理的炒作和术语。 这个项目故意保持简约和教育性,但看到简单的令牌采样产生真正的自主性,对我来说是一个令人震撼的“感受AGI”的时刻!我欢迎其他人的贡献。