返回首页
最新
嗨,HN,
我在生产环境中使用大型语言模型(LLMs)已经有一段时间了,既作为独立开发者为客户构建应用,也在一家人工智能初创公司工作。让我感到痛苦的一件事就是每个月都要支付给OpenAI、Gemini或Anthropic几美元,仅仅是为了让我说“测试”或者让持续集成(CI)运行器验证一些用户界面代码。因此,我构建了一个名为ChunkBack的服务器,它模拟了流行的LLM提供商的功能,但允许你使用一种确定性语言进行输入:
`SAY "cheese"` 或 `TOOLCALL "tool_name" {} "tool response"`
我在一些测试环境中工作过,并取得了良好的实验结果,但这仍然是一个早期项目,所以我非常希望能收到反馈,并希望有更多的测试者参与。
我说的是大于5 TB的文件。Rclone看起来非常不错,因为我可以给它设置带宽限制,指向Google Drive,然后就可以放手不管了。但我很好奇这是否是最好的方法?HN(黑客新闻)怎么看?
我们发布了一个JavaScript SDK,用于使用两个现代基础模型进行零样本时间序列预测:
• AWS的Chronos2
• NXAI的TiRex
我们的目标是使在任何JavaScript或TypeScript环境(如网页应用、后端服务、工作流自动化工具)中运行预测变得简单,无需训练、预处理或模型托管。您只需发送一个原始数字数组,即可收到预测结果。
以下是GitHub上的链接: [https://github.com/S-FM/faim-js-client](https://github.com/S-FM/faim-js-client)
大家好!我们是来自 Mosaic 的 Adish 和 Kyle(<a href="https://mosaic.so">https://mosaic.so</a>)。Mosaic 让您可以在基于节点的画布上创建和运行自己的多模态视频编辑代理。与传统视频编辑工具相比,它有两个主要不同之处:(1)用户界面和(2)内置于我们代理中的视觉智能。
我们曾是特斯拉的工程师,有一天,我们突发奇想,想制作一段关于 Cybertruck 的 YouTube 视频。我们录制了数小时的汽车经过的画面,但在如何快速浏览这些原始素材以编辑出仅包含 Cybertruck 的视频时遇到了困难。
在使用 DaVinci Resolve 和 Adobe Premiere Pro 等视频编辑软件时,我们感到沮丧,因为完成简单任务的过程非常繁琐。功能隐藏在菜单、按钮和图标后面,我们经常需要在谷歌上搜索或询问 ChatGPT 如何进行某些编辑。
我们认为,借助多模态 AI,我们肯定可以加速这个过程。更好的是,AI 视频编辑器可以根据它在视频中看到和听到的内容自动应用编辑。这个想法迅速发展,我们开始了“视频编辑的光标”的副项目。
我们制作了一个原型,令我们惊讶的是,它能够根据视频中看到或听到的内容分析并添加文本覆盖。现在,我们只需一个聊天提示就可以自动统计 Cybertruck 的数量。这个原型可以在这里查看:<a href="https://www.youtube.com/watch?v=GXr7q7Dl9X0" rel="nofollow">https://www.youtube.com/watch?v=GXr7q7Dl9X0</a>。
之后,我们花了一段时间构建自己的基于时间线的视频编辑器,使我们的多模态副驾驶变得强大且具有状态感知。通过自然语言,我们现在可以请求聊天帮助生成 AI 资产、进行增强、搜索资产,并自动应用编辑,如动态文本覆盖。这个版本可以在这里查看:<a href="https://youtu.be/X4ki-QEwN40" rel="nofollow">https://youtu.be/X4ki-QEwN40</a>。
然而,在与用户交谈后,我们意识到聊天用户体验在视频编辑中存在局限性:(1)视频越长,处理所需的时间就越长。用户在聊天响应之间需要等待太久。(2)用户在视频项目中有固定的工作流程。尤其是对于需要制作大量内容的人来说,聊天界面反而成了瓶颈,而不是加速器。
这让我们回到基本原则,重新思考“非线性编辑器”真正意味着什么。最终结果是一个基于节点的画布,使您能够创建和运行自己的多模态视频编辑代理。<a href="https://screen.studio/share/SP7DItVD" rel="nofollow">https://screen.studio/share/SP7DItVD</a>。
画布中的每个模块代表一个视频编辑操作,并且是可配置的,因此您仍然可以保持创意控制。您还可以分支并并行运行编辑,从相同的原始素材创建多个变体,以进行 A/B 测试不同的提示、模型和工作流程。在画布中,您可以实时查看内容如何随着代理的每一步而演变。
我们的想法是,画布将自动运行您的视频编辑,帮助您完成 80-90% 的工作。然后,您可以在内联时间线编辑器中进行调整和修改。我们支持将您的时间线状态导出到传统编辑工具,如 DaVinci Resolve、Adobe Premiere Pro 和 Final Cut Pro。
我们还利用多模态 AI 构建了视觉理解和智能。这使我们的系统对视频概念、情感、动作、口语、光照水平和镜头类型有了深入的理解。
我们在处理流程中进行了大量额外的分析,例如显著性分析、音频分析和重要对象的识别——所有这些都是为了帮助指导最佳编辑。这些是我们作为人类编辑者深刻内化的内容,以至于可能不会多想,但将这一过程反向工程化并构建到 AI 代理中是一个有趣的挑战。
我们的分析发现包括:
最佳安全矩形:<a href="https://assets.frameapp.ai/mosaicresearchimage1.png" rel="nofollow">https://assets.frameapp.ai/mosaicresearchimage1.png</a>
视频分析:<a href="https://assets.frameapp.ai/mosaicresearchimage2.png" rel="nofollow">https://assets.frameapp.ai/mosaicresearchimage2.png</a>
显著性分析:<a href="https://assets.frameapp.ai/mosaicresearchimage3.png" rel="nofollow">https://assets.frameapp.ai/mosaicresearchimage3.png</a>
平均运动分析:<a href="https://assets.frameapp.ai/mosaicresearchimage4.png" rel="nofollow">https://assets.frameapp.ai/mosaicresearchimage4.png</a>
编辑的用例包括:
- 删除不好的镜头或根据脚本进行剪辑
- 将长视频重新制作成短片、短视频和集锦(例如播客、网络研讨会、访谈)
- 从一个或多个输入视频创建精彩集锦或蒙太奇
- 从一个或多个输入视频创建拼接编辑和粗剪
- 针对各种社交媒体平台优化内容(重新构图、添加字幕等)
- 使用语音克隆和口型同步为内容配音。
我们还支持生成内容的用例,例如运动图形动画、电影字幕、AI 用户生成内容、为现有内容添加上下文相关的 AI 生成 B-Roll,或修改现有视频素材(更改光照、应用视觉特效)。
目前,我们的画布可以用于构建可重复的代理工作流程,但我们正在开发一个完全自主的代理,能够执行诸如:使用现有视频内容进行风格迁移、定义自己的编辑序列/工作流程而无需画布、进行研究并从网络参考中提取资产等。
您可以今天就试用它,访问 <a href="https://edit.mosaic.so">https://edit.mosaic.so</a>。您可以免费注册并开始通过上传视频、在画布上创建工作流程以及在时间线编辑器中进行编辑来体验界面。我们会对节点运行收取费用,以帮助覆盖模型成本。我们的 API 文档在 <a href="https://docs.mosaic.so">https://docs.mosaic.so</a>。我们期待听到您的反馈!