5作者: gray_amps9 个月前原帖
我正在构建一个系统,以便在设备上(移动设备、物联网设备、本地服务器)运行小型大语言模型(LLM),非常希望听听其他人是如何应对这些挑战的。 背景: 用例:离线聊天机器人、智能摄像头、本地数据隐私 模型:7-13亿参数的量化模型(例如 Llama 2、Vicuna) 限制:有限的内存/闪存,仅支持 CPU 或小型 GPU,间歇性连接 问题: 你们使用了哪些运行时或框架(ONNX Runtime、TVM、自定义 C++)? 在内存紧张的情况下,你们如何处理模型加载、驱逐和批处理? 有没有什么巧妙的技巧用于量化、剪枝或内核融合,以提升性能? 你们如何在现场安全地监控和更新模型? 期待你们的基准测试、经验分享和代码指引!
2作者: Artjoker9 个月前原帖
销售团队常常面临对通话内容的可见性有限,仅能手动审核5-10%的通话记录,这导致了许多商机的错失。我们开发了一款基于人工智能的语音分析工具,能够对100%的通话进行转录、索引和分析,将其转化为可操作的洞察。在一个案例中,这帮助一家SaaS客户在12个月内实现了120%的销售增长。 工具功能概述 我们的目标是提供非侵入式、自动化的质量保证,能够大规模应用。其主要功能包括: - 100%通话转录:使用自动语音识别(ASR)技术进行准确、快速的转录。 - 可搜索数据库:索引后的转录文本,便于关键词和短语的跟踪。 - 可定制报告:自动生成的经理报告,按代理或团队分组。 - CRM集成:将数据同步到Salesforce和Zoho等工具。 局限性:目前缺乏实时警报、情感分析和情绪评分(计划在未来更新中添加)。 架构概述 - 音频捕获:集成VoIP或手动上传。 - ASR管道:通过基于云的语音转文本技术转录通话。 - 转录索引:使用ElasticSearch高效存储和检索数据。 - 关键词匹配:标记重要术语,如定价或行动号召(CTA)。 - 报告:自动生成每周总结。 实际影响 一位SaaS客户实现了: - 12个月内销售增长120%。 - 通过识别高效模式,成交率提高35%。 - 由于信息传递一致,销售周期缩短5天。 - 通过更好的异议处理,客户流失率从15%降至6%。 这一切是在不扩展团队的情况下实现的——仅仅是利用数据的力量。 挑战与经验教训 - 关键词规则:过度标记术语导致警报疲劳,因此我们为每个客户定制关键词集。 - ASR模型问题:通过为嘈杂输入添加预过滤和备用模型来解决。 - CRM集成:构建中间件以适应不同客户的CRM结构。 - 经理过载:简化报告,突出主要偏差,避免信息过载。 下一步:未来计划 - 趋势检测:分析关键词随时间的频率变化。 - 对话模板:自动标记通话(介绍、演示、定价)。 - 通话质量评分:识别音频质量差或对话不完整的情况。 关键要点 - 专注基础:转录 + 搜索 + 简单标记带来巨大价值。 - 人工参与:洞察在实时可操作时最有用。 - 可扩展性 = 简单性:专注且简单的解决方案能带来更好的结果。 - 数据 ≠ 洞察:报告需要经过整理并对管理者可操作。 结论 人工智能是销售团队的强大工具,但成功在于将原始数据转化为可操作的洞察。通过构建可扩展的系统并避免复杂性,我们能够实现真正的业务增长——这种方法在各个行业中都具有适应性。
3作者: cal319 个月前原帖
你好,HN,这是我在开始这段编码旅程以来的第一个“完成”项目。<p>Vern 是一种静态类型的脚本语言,虽然还有很多不完善之处。<p>你可以在这里试用它:<a href="https://vern.cal31.dev" rel="nofollow">https://vern.cal31.dev</a><p>你可以在这里找到源代码和一些文档:<a href="https://github.com/cal31/vern-lang">https://github.com/cal31/vern-lang</a>
1作者: flixaiorg9 个月前原帖
父母们都知道这种挣扎:反复去图书馆、支付逾期费用,或者不断购买新书以满足孩子对睡前故事的渴求。FlixAI 的 BookGenAI 提供了一种令人耳目一新的替代方案——一款按需生成独特、适龄睡前故事的人工智能工具。再也不需要等待几天才能借到图书馆的书,也不必花钱购买可能只读一次的书籍。BookGenAI 将无尽的新故事库放在你的指尖,彻底改变了家庭对睡前阅读的方式。
1作者: discomonday9 个月前原帖
嗨,HN, 我开发了DiscoMonday,这是一款语音人工智能导览工具,让任何访客都能根据他们的位置获得实时解说——只需使用手机和耳机,无需硬件、无须安装应用程序,也不需要编写代码。 这只是核心引擎的技术预览,尚未推出完整的SaaS产品。您可以: - 使用GPS或点击地图设置您的位置 - 根据您的位置听到AI开始讲解 - 在讲解过程中打断并提出后续问题 - 通过OpenAI + LiveKit获得实时语音回复 试试演示: [https://discomonday.com](https://discomonday.com) 如果未启用GPS,请点击地图以模拟位置。 如果服务器过载,您仍会被加入等待名单(所有注册用户均如此)。 需要麦克风和位置权限——这是一个以音频为主的体验。 我为什么要开发这个: 在一次城市旅行中,我和妻子不断问“那座建筑是什么?”但没有任何应用能够回答。因此,我拼凑了一个原型。当前系统是朝着让基于语音的、位置感知的界面变得简单易用的一步——适用于博物馆、展览、旅游等多个场景。 我希望获得的反馈: - 语音听起来够快且自然吗? - 有什么地方让您感到困惑或不顺畅吗? - 您个人希望将其用于哪些场景? 隐私说明: 您的隐私很重要。我们会剥离所有个人数据,仅保留匿名的使用统计数据以改善体验。 —— 我是Mark I. Matsushima,一名位于日本冲绳的独立创始人。 这个项目是使用Next.js、OpenAI的实时API、LiveKit和AWS Lambda/EC2构建的。 感谢您的反馈!
8作者: tylerflint9 个月前原帖
大家好,我是Tyler Flint,qtap的创始人之一。 一段时间以来,我和Qpoint.io的团队一直在努力解决一个挑战:理解我们生产系统中离开的加密流量到底发生了什么。现代应用程序在很大程度上依赖于第三方API(比如支付处理器、数据提供商等),但一旦启用TLS,准确了解发送了哪些数据、识别个人身份信息(PII)的暴露情况或调试集成问题就变得非常困难,往往需要依赖复杂且脆弱的解决方案。 传统的方法,如正向代理,需要终止TLS(中间人攻击),管理证书,并且通常会引入性能瓶颈或单点故障。网络防火墙通常在L3/L4层工作,缺乏有效的负载可见性。我们觉得应该有更好的解决方案。 这就是我们构建qtap的原因。它是一个轻量级代理,利用eBPF在内核级别捕获网络流量。关键思想是在加密前和解密后钩住常见的TLS库(如OpenSSL)。这使我们能够深入了解HTTPS/TLS流量的实际请求/响应负载,而无需终止连接或管理证书。由于利用了eBPF,性能影响相比传统方法微乎其微。 通过qtap,我们现在可以准确看到我们的应用程序与哪些外部服务进行通信,检查负载以进行调试或安全审计(例如,发现意外的PII泄露),监控第三方依赖的API性能/错误,并更清晰地了解我们的出口流量模式。 我们发现这种方法在提高可靠性和安全性方面非常有效。我们将qtap打包为Linux二进制文件、Docker容器和Helm图表以便部署。 这一切仍在不断发展,但我们对使用eBPF实现这种深度而非侵入式的可见性感到兴奋。 我们希望能听到HN社区的反馈: ``` 你们在监控加密出口流量时是否面临类似的挑战? 相比其他方法,你们对使用eBPF有什么看法? 有没有我们尚未考虑的建议或潜在用例? ``` 欢迎随时提问!
2作者: rohitghumare9 个月前原帖
想象一下,您可以输入任何问题,立即获得一个组织完善的答案,包含来源、摘要和知识图谱……这就是我们今天正在构建的AI研究助手的强大功能,利用Motia这一改变AI代理游戏规则的后端框架! 这不仅仅是另一个教程——它是对AI工作流程未来的预览。 看看Motia的事件驱动魔法如何让您将复杂任务串联起来: - 接受您的查询, - 使用Gemini生成搜索思路, - 在网络上进行广泛搜索, - 深入内容分析, - 提取关键概念, - 提供完整的研究报告。 我们将开始实时编码(好吧,差不多!),您将看到启动一个强大代理是多么快速和简单。
122作者: sharjeelsayed9 个月前原帖
请访问以下链接下载测试版:<a href="https://voideditor.com/download-beta">https://voideditor.com/download-beta</a>