3作者: sagarkava19 天前原帖
嗨,我是Sagar。我们刚刚开源了一个框架,可以构建实时的AI驱动视频头像,您可以将其嵌入到任何应用程序或网站中。 您可以使用它创建销售助手、客户成功代理、模拟面试官、语言教练,甚至历史人物。它是模块化的(可以选择您的语音转文本、语言模型和文本转语音提供商),已准备好投入生产,并针对超低延迟视频生成进行了优化。 功能特点: - 实时语音转视频头像(<300毫秒) - 原生的回合检测、语音活动检测和噪声抑制 - 模块化管道,支持语音转文本、语言模型、文本转语音和头像的实时模型切换 - 内置的RAG(检索增强生成)和记忆功能,增强基础性和抵抗幻觉 - 支持Web、移动、Unity、物联网和电话的SDK,无需额外的粘合代码 - 代理云支持无限扩展,提供一键部署,或完全自托管以实现完全控制 GitHub仓库: [https://github.com/videosdk-community/ai-avatar-demo](https://github.com/videosdk-community/ai-avatar-demo) 完整博客: [https://www.videosdk.live/blog/ai-avatar-agent](https://www.videosdk.live/blog/ai-avatar-agent) 欢迎任何从事视频、头像或实时对话AI工作的朋友提供反馈!
2作者: anonandwhistle19 天前原帖
我刚意识到,如果我完全转向Linux,我需要使用更大的iCloud存储空间来进行备份,这将每年产生费用……因为我无法在Linux上通过iTunes进行备份,而且我不信任其他任何软件来本地加密iPhone。<p>你能分享一下因为某些软件不支持而产生的费用吗?
11作者: bpcrd19 天前原帖
嗨,HN!我是来自Reality Defender的Ben(<a href="https://www.realitydefender.com">https://www.realitydefender.com</a>)。我们为全球财富100强企业和政府构建实时多模态和多模型的深度伪造检测技术。(我们甚至因我们的工作获得了RSAC创新展示奖:<a href="https://www.prnewswire.com/news-releases/reality-defender-wins-most-innovative-startup-at-rsa-conference-2024-innovation-sandbox-302137326.html" rel="nofollow">https://www.prnewswire.com/news-releases/reality-defender-wi...</a>) 今天,我们很高兴地分享我们的公共API和SDK,任何人只需两行代码即可访问我们的平台:<a href="https://www.realitydefender.com/api">https://www.realitydefender.com/api</a> 在W22时,我们推出了检测AI生成媒体的产品,涵盖音频、视频和图像:<a href="https://news.ycombinator.com/item?id=30766050">https://news.ycombinator.com/item?id=30766050</a> 那篇文章引发了与开发者、安全团队、研究人员和政府的对话。最常见的问题是:“我们能否获得API/SDK访问权限,将深度伪造检测集成到我们的产品中?” 我们听到了来自独立开发者、金融科技公司、市场创始人以及保护视频通话和入职流程的基础设施公司的反馈。他们并不是要求我们开发新的功能,而是希望能够访问我们已有的技术,以便将其集成并继续前进。 经过与客户的试点和合作,我们终于准备好分享我们的公共API和SDK。现在,任何人都可以仅用两行代码嵌入深度伪造检测,起价为免费。 <a href="https://www.realitydefender.com/api">https://www.realitydefender.com/api</a> 我们的新开发者工具支持图像、声音、视频和文本的检测——前两者作为免费套餐的一部分提供。如果您的产品涉及KYC(了解你的客户)、UGC(用户生成内容)、支持工作流程、通信、市场或身份层,您现在可以直接在您的技术栈中嵌入实时检测。它运行在云端,长期客户使用我们的平台时也可以在本地、边缘或完全隔离的系统上部署。 SDK目前支持Python、Java、Rust、TypeScript和Go。每月前50次扫描免费,超出部分按使用量计费。如果您正在开发需要其他功能或流媒体访问(如实时语音或视频)的项目,请直接通过yc@realitydefender.com与我们联系。 自2022年以来,许多事情发生了变化。我们当时设想的威胁现在出现在日常的支持票和事件报告中。我们目睹了针对银行呼叫中心的语音深度伪造,实时欺诈;伪造的文件和AI生成的自拍通过KYC和IDV入职系统;假约会资料、AI生成的市场卖家和“认证”影响者冒充真实人物。政治虚假信息视频和合成媒体泄露引发了现实世界的法律和公关危机。甚至评论、支持记录和冒充脚本也越来越多地由AI生成。 自2021年开始,我们发现检测比我们最初预期的要困难得多。每隔几周就会出现新的生成方法,推翻之前的假设。这就是为什么我们致力于自己构建每一层。我们不授权或白标检测模型;我们部署的所有内容都是由我们的团队内部构建的。 自我们最初推出以来,我们已与顶级银行、全球政府和媒体公司合作,在他们的高风险工作流程中部署检测。然而,我们始终相信,这种需求并不仅限于大型机构,而是无处不在。它出现在YC的办公时间、早期的错误报告中,以及我们上次HN帖子后的群聊中。 我们花时间确保这一产品构建得很好,灵活到足以适应初创公司,并经过实战测试,值得在生产环境中信赖。您今天可以使用的API与许多企业部署所使用的API是相同的。 我们的目标是让Reality Defender像Stripe、Twilio或Plaid一样,成为一个隐形的、值得信赖的层,您可以将其嵌入到您的系统中,以保护重要内容。我们认为深度伪造检测是关键基础设施的重要组成部分,像任何良好的基础设施一样,它应该是模块化、可靠且单调(以最佳方式)。 Reality Defender已经在Zoom市场上上线,并将在Teams市场上很快推出。我们还将为身份工作流程、支持平台和内部信任与安全管道提供深度伪造检测。 如果您正在构建与信任、身份或内容完整性相关的项目,或者遇到了无法解释的奇怪边缘案例,我们非常希望听到您的声音。 您可以在这里开始使用:<a href="https://realitydefender.com/api">https://realitydefender.com/api</a> 或者您可以通过两种不同的方式免费试用我们的服务: 1) 一键添加到Zoom / Teams,立即在您的通话中进行尝试。 2) 将最多50个文件发送到yc@realitydefender.com,我们将为您扫描——无需设置。 再次感谢HN社区在三年前帮助我们启动。这是一段疯狂的旅程,我们很高兴能分享一些新东西。我们自己也活跃在HN上,会在这里倾听您的反馈。请告诉我们您的想法!
4作者: coffeecoders19 天前原帖
我决定将质数变成一个迷你钢琴,看看它们能演奏出怎样的音乐。<p>灵感来源: <a href="https://news.ycombinator.com/item?id=44888548">https://news.ycombinator.com/item?id=44888548</a><p>Github: <a href="https://github.com/neberej/prime-piano" rel="nofollow">https://github.com/neberej/prime-piano</a>
1作者: GoAhmedBen19 天前原帖
嗨,HN, 我创建了Llamafiles,这是一个不断扩展的基于浏览器的文件工具套件。所有功能完全在客户端运行,无需服务器、无需上传,且没有任何数据离开您的浏览器。 我为什么要制作它: - 我想要简单、私密的工具,而不必担心将文件上传到随机的服务器。 - 大多数转换器和编辑器依赖于后端,这可能会很慢或不安全。 目前它的功能: - 一套基本的文件工具(全部在浏览器中运行)。 - 轻量且易于访问。 - 没有追踪、没有账户、没有依赖。 接下来: - 我会继续添加新工具。 - 用户界面仍需大量打磨,但我还是选择发布,以获取真实的反馈。 在这里试试: [https://llamafiles.com](https://llamafiles.com)