展示HN:AdvertBench,评估大型语言模型(LLMs)创建图像广告的能力1 分•作者: joegibbs•1 天前•原帖我进行的实验。模型可以访问一个E2B沙盒,并被指示根据规格创建广告(它们可以选择任何想要使用的工具,例如Pillow、Chromium),这作为它们使用工具、创建其他类型图像、进行复杂布局等能力的代理。目前,Opus 4.8表现最佳(这并不令人惊讶,但创建图像花费了66轮对话),而GLM-5.2则排在第五(这让我感到惊讶,因为它没有图像处理能力)。