我进行的实验。模型可以访问一个E2B沙盒,并被指示根据规格创建广告(它们可以选择任何想要使用的工具,例如Pillow、Chromium),这作为它们使用工具、创建其他类型图像、进行复杂布局等能力的代理。目前,Opus 4.8表现最佳(这并不令人惊讶,但创建图像花费了66轮对话),而GLM-5.2则排在第五(这让我感到惊讶,因为它没有图像处理能力)。
返回首页
一周热榜
需要禁止他们……
这是我过去几个月一直在进行的一个项目。<p>通过XBRL标签,从美国证券交易委员会的文件中提取了每家公司的所有基本数据。