23作者: lcolucci10 个月前原帖
嗨,HN,我是Lemon Slice的Lina、Andrew和Sidney。我们训练了一个自定义的扩散变换器(DiT)模型,实现了以25帧每秒的视频流播放,并将其包装成一个演示,允许任何人将照片转变为实时的会说话的头像。以下是联合创始人Andrew的一段示例对话:<a href="https:&#x2F;&#x2F;www.youtube.com&#x2F;watch?v=CeYp5xQMFZY" rel="nofollow">https:&#x2F;&#x2F;www.youtube.com&#x2F;watch?v=CeYp5xQMFZY</a>。您可以在这里亲自尝试:<a href="https:&#x2F;&#x2F;lemonslice.com&#x2F;live">https:&#x2F;&#x2F;lemonslice.com&#x2F;live</a>。 (顺便提一下,我们之前叫做Infinity AI,去年以这个名字做过一次Show HN:<a href="https:&#x2F;&#x2F;news.ycombinator.com&#x2F;item?id=41467704">https:&#x2F;&#x2F;news.ycombinator.com&#x2F;item?id=41467704</a>。) 与现有的头像视频聊天平台如HeyGen、Tolan或Apple Memoji滤镜不同,我们不需要训练自定义模型、提前设置角色或让人类操控头像。我们的技术允许用户通过上传一张图片来创建并立即视频通话一个自定义角色。角色图像可以是任何风格——从照片真实到卡通、绘画等。 为了实现这个演示,我们必须完成以下几项工作(还有其他工作,但这些是最难的): 1. 训练一个快速的DiT模型。为了使我们的视频生成速度更快,我们必须设计一个在速度和质量之间做出正确权衡的模型,并使用标准的蒸馏方法。我们首先从头开始训练了一个自定义的视频扩散变换器(DiT),实现了与音频的出色嘴唇和面部表情同步。为了进一步优化模型的速度,我们应用了教师-学生蒸馏。蒸馏后的模型在256像素分辨率下实现了25帧每秒的视频生成。专用的变换器ASIC最终将使我们能够以4K分辨率流式传输我们的视频模型。 2. 解决无限视频问题。大多数视频DiT模型(如Sora、Runway、Kling)生成5秒的片段。它们可以通过将第一个片段的末尾以自回归的方式输入到第二个片段的开头,迭代地延长5秒。不幸的是,由于生成错误的积累,这些模型在多次扩展后会出现质量下降。我们开发了一种时间一致性保持技术,能够在长序列中保持视觉连贯性。我们的技术显著减少了伪影的积累,使我们能够生成无限长的视频。 3. 具有最小延迟的复杂流媒体架构。实现端到端的头像Zoom通话需要几个构建模块,包括语音转录、LLM推理和文本转语音生成,此外还有视频生成。我们使用Deepgram作为我们的AI语音合作伙伴,Modal作为端到端计算平台,Daily.co和Pipecat帮助构建一个并行处理管道,通过持续流式传输片段来协调一切。我们的系统实现了从用户输入到头像响应的端到端延迟为3-6秒。我们的目标是低于2秒的延迟。 更多技术细节请见:<a href="https:&#x2F;&#x2F;lemonslice.com&#x2F;live&#x2F;technical-report">https:&#x2F;&#x2F;lemonslice.com&#x2F;live&#x2F;technical-report</a>。 我们希望解决的当前限制包括:(1)实现全身和背景动作(我们正在为此训练下一代模型),(2)减少延迟并提高分辨率(专用ASIC将有所帮助),(3)在双人对话中训练模型,以便头像能够自然地倾听,以及(4)让角色“看到你”并对他们所见的内容做出反应,以创造更自然和引人入胜的对话。 我们相信,生成视频将开启一种以互动为中心的新媒体类型:电视节目、电影、广告和在线课程将停止并与我们对话。我们的娱乐将根据我们的心情混合被动和主动的体验。预测是困难的,尤其是关于未来,但这就是我们的看法! 我们希望您能试用这个演示,并告诉我们您的想法!请在下面发布您的角色和/或对话录音。
13作者: throwaway77810 个月前原帖
我是美国一家正在开发B2B硬件/软件产品的公司的首席软件工程师。团队优秀,技术出色,产品市场契合度高,收入目标进展良好。我们在进一步开发产品方面有很多机会。尽管这是一个极具挑战性的扩展过程,但我们终于开始看到成效。 我在与CEO的合作中感到困难,因为他越来越专注于大力投资人工智能。我并不反对使用这项技术——它非常出色,我们在技术栈中根据需要整合了多种机器学习模型。但这种策略已经演变到一个地步,以至于我们在与核心业务相关的关键团队上限制了资源,以便投资于人工智能团队。 他们的论点似乎是,他们意识到实现下一轮融资的唯一方法是“以AI为先”。目前没有关于这将是什么样的产品路线图,或者可能涉及哪些功能,或者从产品角度来看我们为什么要这样做的理由。相反,理由是这是吸引一轮大型C轮融资的唯一途径。 我对这种扩展方式是否正确了解得不够深入。与其专注于有用且需求旺盛的产品功能,感觉我们花了很多时间在一个遥远的未来上,而如果我们不专注于当前的目标,就会很难实现。这样的情况正常吗?其他组织也在经历同样的挣扎吗?在过去五年中,我第一次感到完全无能为力。
3作者: kaushikbose10 个月前原帖
我正在探索一个学习系统,旨在解决我们许多人面临的双重挑战:既要记住技术概念,又要掌握有效应用这些概念所需的业务领域知识。 经过多年在不同产业的编码经验,我注意到理解业务领域(如金融、医疗、电子商务等)往往与掌握技术栈同样具有挑战性,而大多数学习工具仅关注技术方面。 我有几个问题想了解: 1. 你目前是如何在掌握技术概念的同时,捕捉和保留特定领域的知识的? 2. 在进入一个陌生业务领域的新代码库时,你面临的最大挑战是什么? 3. 你是否尝试过使用抽认卡或间隔重复法来学习技术或领域知识?效果如何? 4. 你认为一个能够帮助团队建立技术栈和业务领域共享认知模型的工具是否有价值? 5. 你目前是如何在团队成员之间传递领域知识的? 我现在处于早期验证阶段,希望在构建任何东西之前能获得你的见解。如果有足够的兴趣,我会分享我从这个讨论中学到的内容。
2作者: noemit10 个月前原帖
我在教育科技领域工作了将近10年,涉及B2B、B2C和非营利组织的背景。我见证了真正的产品市场契合,也看到了许多不佳的产品市场契合。 教育科技是互联网时代最大的技术失望之一。互联网改变了人们学习的方方面面。我总是开玩笑说,YouTube实际上是最好的教育科技产品。现在,我想ChatGPT和其他大型语言模型(LLMs)也是如此。但这些产品存在许多问题,特别是在准确性、教学法和缺乏评估方面。(研究表明,低风险评估往往是学习发生的时刻。) 在“教育科技领域”,我认为许多产品都失败了。我所构建的最佳产品是免费的在线科学模拟(虚拟实验室)。 我曾参与过一些在财务上成功的产品,但是否真正帮助用户学习则值得商榷。 向家长销售的教育科技公司实际上是在为家长制作产品。其目标通常是让家长对为孩子做出的选择感到满意。例如,给孩子一个带有教育游戏的iPad,这样你就成了更好的父母。 向企业销售的教育科技产品则是在为雇主制作产品。这些产品往往更多地关注员工的追踪,而不是实际的技能发展。 为教育工作者制作产品在学习成果方面更有效的原因在于大多数教师的激励是一致的——他们希望学生能够学到更多并能够应用所学知识。 这引出了一个“鸡与蛋”的问题——因为教育是一个系统,技术要么必须适应这个系统,要么就会破坏这个系统。破坏系统可能会带来高昂的成本和许多不良的副作用。我想这与医疗保健/健康科技很相似——你不能仅仅快速行动并破坏事物。 教育科技产品的采用(通过教育工作者)比纯B2C更复杂,但比B2B的利润更低,这使得其成本高昂且痛苦。 从产品/背景和商业模式的角度来看,这都很困难。这部分是我认为非营利模式在教育领域效果最佳的原因(如可汗学院、Phet等)。在不需要优化利润的情况下,你可以自由地构建更适合现有系统的产品。你可以服务那些无法支付费用的人,或者没有能力说服他们的管理层为你支付。 然而,我仍然认为我们做得还不够——下一步是什么? 如果有人问我下一笔20亿美元的教育科技资金应该投向哪里,我会建议一些高度专业化的非营利组织,每个组织都有一个专注的目标,比如在小学高年级教授有意义的阅读技能,或让孩子们对中学数学产生兴趣。让这些非营利组织专注于教育工作者,关注那些在现实世界中试图解决这些问题的教育者。 最终,为了实现真正的成果,所有这些产品需要是免费的或得到赞助的。我确实认为向学区销售的付费产品是可行的(这些企业确实存在),但这增加了很多摩擦,减缓了产品开发的速度,当然也干扰了激励机制。这些付费产品往往希望拥有强大的护城河——因此它们将学区锁定在多年合同中,然后停止改进产品。它们生成管理者喜欢的指标,而教育者被迫使用但并未改进的产品。非营利组织则拥有“无护城河”的神奇自由。