返回首页
最新
看起来Qwen3并不具备独立推理的能力——它缺乏驱动完全自主AI代理所需的质量。<p>最初,我对它在通过聊天界面输出代码时的问题解决能力感到相当 impressed。它在处理某些问题时表现得比Claude或Gemini要好得多。然而,当我切换到阿里云的API,以提供我新一代AI代理(代码链)认知者接口的Dashscope实现时,整个魅力都消失了。<p>Qwen3在结构化生成尝试中表现不佳,经常在输出标记时陷入无限循环。<p>它在跨越语言边界时遇到困难,这对我的代理至关重要,因为它们是“用代码思考”的——编写包含JavaScript和SQL的Kotlin脚本等,因此它作为自动化软件工程师的表现并不好。<p>它是“固执”的——即使生成代码中的语法错误已明确指出,它仍然倾向于一遍又一遍地输出相同的错误代码,而不是测试其他假设。<p>它缺乏心智理论和对上下文及环境的理解。例如,当被要求检查最近的新闻时,它总是试图使用BBC API的URL,并将未填写的API密钥作为请求的一部分,同时将此URL传递给Files工具,而不是WebBrowser工具,这显然是失败的。<p>最后但同样重要的是——审查,例如Qwen3会拒绝搜索关于中国最近反政府抗议的信息。如果这些审查屏障在其他领域的认知质量不佳中也部分负责,我一点也不会感到惊讶。<p>也许是我做错了什么,而你在使用这个模型进行完全自主代理和反馈循环时得到了更好的结果?
我想分享这个小小的周末实验。我使用了 gource(通常用于展示 git 仓库随时间的变化)来分析 web 服务器日志。
视频链接在这里:<a href="https://www.youtube.com/watch?v=NqV8wqy0v7w" rel="nofollow">https://www.youtube.com/watch?v=NqV8wqy0v7w</a>
这个视频展示了一个非营利组织的 web 服务器活动,包括请求和接收付款、接受新成员,以及两位管理员进行的更改。实际上,使用 gource 来实现这一点非常简单,只需提供一个格式相对简单的日志文件,而不需要提供 git 仓库。
这是一个低流量的服务器,但我觉得用这种方式可视化服务器活动非常有趣。我想知道为什么像这样的可视化不常见。
我每天支付大约9美元用于一个无法连接的Vertex AI托管笔记本。控制台界面无法加载实例详情,直接访问时出现<错误400:无效请求>。<p>我被锁定在外,但账单仍在继续。有没有其他人遇到过这种特定的身份验证阻塞,导致无法管理托管笔记本?<p>在等待谷歌支持的同时(我使用的是按需付费模式,因此没有人工服务权限),我不禁想这是不是Multivac在计算最后的问题(逆转熵可能值9美元/天)。<p>有没有人和这个机器中的幽灵斗争过?