返回首页
最新
查看像Clerk这样的网站,我开始觉得设计工程师可能是一种巫师。我想了解他们是如何做到这一点的,于是出于好奇,我开始对他们的组件进行逆向工程。事情一来二去,我最终建立了一个基于我所发现内容的小型可重用动画组件库。这个库是用React和Framer Motion构建的。我很想听听你的反馈。
你好!我制作这个工具是为了帮助在Mac上顺利切换到新机器时,处理已经为特定文件编辑设置的多个自定义工具。这个工具旨在尽可能简化这个过程,并在此基础上增加一些额外的功能,比如设置mailto处理程序或类似的功能。使用XDG_CONFIG_HOME可以帮助保持组织性。
感谢<a href="https://github.com/moretension/duti">https://github.com/moretension/duti</a>为这个项目提供的原始灵感。
如果有任何问题,我很乐意回答并提供帮助。
嗨,HN,我是Lemon Slice的Lina、Andrew和Sidney。我们训练了一个自定义的扩散变换器(DiT)模型,实现了以25帧每秒的视频流播放,并将其包装成一个演示,允许任何人将照片转变为实时的会说话的头像。以下是联合创始人Andrew的一段示例对话:<a href="https://www.youtube.com/watch?v=CeYp5xQMFZY" rel="nofollow">https://www.youtube.com/watch?v=CeYp5xQMFZY</a>。您可以在这里亲自尝试:<a href="https://lemonslice.com/live">https://lemonslice.com/live</a>。
(顺便提一下,我们之前叫做Infinity AI,去年以这个名字做过一次Show HN:<a href="https://news.ycombinator.com/item?id=41467704">https://news.ycombinator.com/item?id=41467704</a>。)
与现有的头像视频聊天平台如HeyGen、Tolan或Apple Memoji滤镜不同,我们不需要训练自定义模型、提前设置角色或让人类操控头像。我们的技术允许用户通过上传一张图片来创建并立即视频通话一个自定义角色。角色图像可以是任何风格——从照片真实到卡通、绘画等。
为了实现这个演示,我们必须完成以下几项工作(还有其他工作,但这些是最难的):
1. 训练一个快速的DiT模型。为了使我们的视频生成速度更快,我们必须设计一个在速度和质量之间做出正确权衡的模型,并使用标准的蒸馏方法。我们首先从头开始训练了一个自定义的视频扩散变换器(DiT),实现了与音频的出色嘴唇和面部表情同步。为了进一步优化模型的速度,我们应用了教师-学生蒸馏。蒸馏后的模型在256像素分辨率下实现了25帧每秒的视频生成。专用的变换器ASIC最终将使我们能够以4K分辨率流式传输我们的视频模型。
2. 解决无限视频问题。大多数视频DiT模型(如Sora、Runway、Kling)生成5秒的片段。它们可以通过将第一个片段的末尾以自回归的方式输入到第二个片段的开头,迭代地延长5秒。不幸的是,由于生成错误的积累,这些模型在多次扩展后会出现质量下降。我们开发了一种时间一致性保持技术,能够在长序列中保持视觉连贯性。我们的技术显著减少了伪影的积累,使我们能够生成无限长的视频。
3. 具有最小延迟的复杂流媒体架构。实现端到端的头像Zoom通话需要几个构建模块,包括语音转录、LLM推理和文本转语音生成,此外还有视频生成。我们使用Deepgram作为我们的AI语音合作伙伴,Modal作为端到端计算平台,Daily.co和Pipecat帮助构建一个并行处理管道,通过持续流式传输片段来协调一切。我们的系统实现了从用户输入到头像响应的端到端延迟为3-6秒。我们的目标是低于2秒的延迟。
更多技术细节请见:<a href="https://lemonslice.com/live/technical-report">https://lemonslice.com/live/technical-report</a>。
我们希望解决的当前限制包括:(1)实现全身和背景动作(我们正在为此训练下一代模型),(2)减少延迟并提高分辨率(专用ASIC将有所帮助),(3)在双人对话中训练模型,以便头像能够自然地倾听,以及(4)让角色“看到你”并对他们所见的内容做出反应,以创造更自然和引人入胜的对话。
我们相信,生成视频将开启一种以互动为中心的新媒体类型:电视节目、电影、广告和在线课程将停止并与我们对话。我们的娱乐将根据我们的心情混合被动和主动的体验。预测是困难的,尤其是关于未来,但这就是我们的看法!
我们希望您能试用这个演示,并告诉我们您的想法!请在下面发布您的角色和/或对话录音。