1作者: joegibbs1 天前原帖
我进行的实验。模型可以访问一个E2B沙盒,并被指示根据规格创建广告(它们可以选择任何想要使用的工具,例如Pillow、Chromium),这作为它们使用工具、创建其他类型图像、进行复杂布局等能力的代理。目前,Opus 4.8表现最佳(这并不令人惊讶,但创建图像花费了66轮对话),而GLM-5.2则排在第五(这让我感到惊讶,因为它没有图像处理能力)。