返回首页
最新
根据一种感觉、一种想法或简单的描述匿名创建 Spotify 播放列表。如果你在 Spotify 上找不到想听的音乐,可以尝试描述一下,让 nekoDJ 来为你挑选音乐。
这篇文章的标题改写了古老的拉丁谚语“Quod natura non dat, Salmantica non praestat”,意思是“自然所不赋予的,萨拉曼卡大学也无法提供”。我们可以说,人工智能无法弥补自然生物智能的不足。我们所谈论的是记忆、理解能力或学习能力等先天能力。简单来说,如果一个人缺乏自然天赋,即使是ChatGPT也无法拯救他们。
对于那些不熟悉萨拉曼卡大学的人来说,它是欧洲最古老的大学之一,成立于1218年。这句谚语刻在其一座建筑的石头上,进一步巩固了这句谚语的流行。
这引出了本文的真正重点:如果我们不知道如何使用人工智能,它不会让我们变得更聪明。对于大型语言模型(LLMs)来说,这与提示工程和上下文密切相关——我们如何构建问题、提供上下文和示例以获得有意义的答案,以及我们如何决定是否信任这些答案。
就个人而言,提示工程越来越让我觉得像是一种催眠。
当我写出包含详细指示的复杂提示时,我会想到那些在舞台上催眠观众的人,告诉他们该如何行为,甚至告诉他们自己是谁,比如一只鸡或其他什么。
随着每个新版本的大型语言模型,这种“催眠工程”似乎变得越来越强。我不会感到惊讶,如果在不久的将来,我们开始看到专业的“建议者”——通过精心设计的提示进行人工智能催眠的专家。我们甚至可能会出现新的职位名称,比如LLM催眠师或AI低语者。想象一下像《LLM低语者》这样的电影——这是《马语者》的续集。
例如,在GPT-4.1中,我们已经开始看到一些高度暗示性的提示,指向这个方向。举个例子:
“你是一个代理人——请继续,直到用户的查询完全解决,然后再结束你的回合并交还给用户。只有在你确定问题解决后,才终止你的回合。你必须在每次函数调用之前进行广泛的计划,并对之前函数调用的结果进行深入反思。不要仅仅通过函数调用完成整个过程……”
我们不仅需要催眠师的技能来编写这些指示,还需要心理学家的能力来解读响应,以便保持对话的进行,甚至检测幻觉。换句话说,我们必须足够聪明,才能有效使用这些新工具。
换句话说,另一句流行的说法是:“你必须先阅读,然后反思。反过来做是危险的。”这里的意思是,既没有反思的阅读,还是没有知识基础的反思,都可能导致不良结果。
使用像ChatGPT这样的工具时也是如此:我们需要知道如何提出正确的问题——同样重要的是,如何对我们得到的答案进行批判性思考。这与我们在该领域的先前知识有很大关系。如果我们对该领域一无所知,我们可能会相信聊天机器人告诉我们的任何事情——而这正是事情变得非常危险的时候。
因此,为了试图催眠观众,我建议你培养自己的智力、记忆和理解能力。这是一个日常任务,就像去健身房一样。因为如果你开始将你的智力委托给ChatGPT等工具,你就不会有能力去使用它。众所周知,如果你委托一项技能,你就会失去它。你周围有很多这样的例子。请不要失去思考的能力;这非常危险。
看起来Qwen3并不具备独立推理的能力——它缺乏驱动完全自主AI代理所需的质量。<p>最初,我对它在通过聊天界面输出代码时的问题解决能力感到相当 impressed。它在处理某些问题时表现得比Claude或Gemini要好得多。然而,当我切换到阿里云的API,以提供我新一代AI代理(代码链)认知者接口的Dashscope实现时,整个魅力都消失了。<p>Qwen3在结构化生成尝试中表现不佳,经常在输出标记时陷入无限循环。<p>它在跨越语言边界时遇到困难,这对我的代理至关重要,因为它们是“用代码思考”的——编写包含JavaScript和SQL的Kotlin脚本等,因此它作为自动化软件工程师的表现并不好。<p>它是“固执”的——即使生成代码中的语法错误已明确指出,它仍然倾向于一遍又一遍地输出相同的错误代码,而不是测试其他假设。<p>它缺乏心智理论和对上下文及环境的理解。例如,当被要求检查最近的新闻时,它总是试图使用BBC API的URL,并将未填写的API密钥作为请求的一部分,同时将此URL传递给Files工具,而不是WebBrowser工具,这显然是失败的。<p>最后但同样重要的是——审查,例如Qwen3会拒绝搜索关于中国最近反政府抗议的信息。如果这些审查屏障在其他领域的认知质量不佳中也部分负责,我一点也不会感到惊讶。<p>也许是我做错了什么,而你在使用这个模型进行完全自主代理和反馈循环时得到了更好的结果?