1作者: morisil9 个月前原帖
看起来Qwen3并不具备独立推理的能力——它缺乏驱动完全自主AI代理所需的质量。<p>最初,我对它在通过聊天界面输出代码时的问题解决能力感到相当 impressed。它在处理某些问题时表现得比Claude或Gemini要好得多。然而,当我切换到阿里云的API,以提供我新一代AI代理(代码链)认知者接口的Dashscope实现时,整个魅力都消失了。<p>Qwen3在结构化生成尝试中表现不佳,经常在输出标记时陷入无限循环。<p>它在跨越语言边界时遇到困难,这对我的代理至关重要,因为它们是“用代码思考”的——编写包含JavaScript和SQL的Kotlin脚本等,因此它作为自动化软件工程师的表现并不好。<p>它是“固执”的——即使生成代码中的语法错误已明确指出,它仍然倾向于一遍又一遍地输出相同的错误代码,而不是测试其他假设。<p>它缺乏心智理论和对上下文及环境的理解。例如,当被要求检查最近的新闻时,它总是试图使用BBC API的URL,并将未填写的API密钥作为请求的一部分,同时将此URL传递给Files工具,而不是WebBrowser工具,这显然是失败的。<p>最后但同样重要的是——审查,例如Qwen3会拒绝搜索关于中国最近反政府抗议的信息。如果这些审查屏障在其他领域的认知质量不佳中也部分负责,我一点也不会感到惊讶。<p>也许是我做错了什么,而你在使用这个模型进行完全自主代理和反馈循环时得到了更好的结果?
2作者: fimdomeio9 个月前原帖
我想分享这个小小的周末实验。我使用了 gource(通常用于展示 git 仓库随时间的变化)来分析 web 服务器日志。 视频链接在这里:<a href="https://www.youtube.com/watch?v=NqV8wqy0v7w" rel="nofollow">https://www.youtube.com/watch?v=NqV8wqy0v7w</a> 这个视频展示了一个非营利组织的 web 服务器活动,包括请求和接收付款、接受新成员,以及两位管理员进行的更改。实际上,使用 gource 来实现这一点非常简单,只需提供一个格式相对简单的日志文件,而不需要提供 git 仓库。 这是一个低流量的服务器,但我觉得用这种方式可视化服务器活动非常有趣。我想知道为什么像这样的可视化不常见。
1作者: _luiza_9 个月前原帖
我每天支付大约9美元用于一个无法连接的Vertex AI托管笔记本。控制台界面无法加载实例详情,直接访问时出现<错误400:无效请求>。<p>我被锁定在外,但账单仍在继续。有没有其他人遇到过这种特定的身份验证阻塞,导致无法管理托管笔记本?<p>在等待谷歌支持的同时(我使用的是按需付费模式,因此没有人工服务权限),我不禁想这是不是Multivac在计算最后的问题(逆转熵可能值9美元/天)。<p>有没有人和这个机器中的幽灵斗争过?
1作者: maxchampoux9 个月前原帖
嘿,HN,<p>我是Maxime——一名产品开发者,曾担任Qonto的产品负责人(可以把它想象成欧洲的Brex,估值约60亿美元)。我最近启动了一个新项目,叫做[Well](https://wellapp.ai)(https://wellapp.ai),我们通过远程浏览器或Chrome扩展程序部署自主代理,代表创始人收集供应商发票。这为忙碌的运营者节省了大量的脑力资源。<p>现在,我知道我位于欧盟,这可能听起来像是又一次尝试<i>监管一切</i>……但请耐心听我说——核心问题是:<p>&gt; 你会把你的Microsoft Azure密钥链交给一个AI代理吗?<p>多年来,我构建了许多集成——有些使用OAuth2,其他则在没有官方API的情况下通过RPA实现。但随着这一代代理<i>自主</i>代表用户行动,我开始思考:我们将如何管理身份验证,并定义代理被允许做的事情的范围?<p>*问题1:代理身份验证*<p>我的代理代表我行动——但我对密码泛滥极为反感。虽然将我的密码和双重身份验证代码直接交给代理是很诱人的,但这在根本上是有问题的。<p>理想情况下,我希望代理请求具有特定范围、时长和目的的凭证访问权限——而且我希望能够集中管理这种访问。如果我更改密码或撤销权限,代理应该立即失去访问权限。<p>*问题2:代理的范围与同意*<p>假设一个代理获得了有效的SaaS凭证并开始爬取一个账户。我怎么知道它<i>仅仅</i>是在收集发票,而不是在敏感设置中乱翻或触发密码重置?<p>OAuth通过范围和明确的用户同意解决了这个问题。但如今的代理似乎没有相应的机制。没有“仅收集发票”的复选框。<p>我想问的是:这种权限管理应该放在密码管理器内部吗?还是应该由代理平台来建立一个关注同意的保险库?或者我们是否应该考虑一些全新的东西——比如MCP(多代理控制协议)?<p>我很想听听是否有人在这个领域看到过严肃的工作或提案——或者你们是否在自己的领域中面临类似的挑战。<p>谢谢!