3作者: keepamovin大约 1 个月前原帖
为什么苹果的语音转录如此糟糕?<p>即使在2到3年前,OpenAI的Whisper模型在离线状态下也能提供更好、几乎即时的语音转录,而该模型的大小仅约为500MB。在这样的背景下,很难理解苹果的转录服务为何在强大的在线服务器上表现如此糟糕。<p>以下是我刚刚使用iOS原生应用时的真实示例:<p>- “BigQuery update” → “bakery update”<p>- “GitHub” → “get her”<p>- “CI build” → “CI bill”<p>- “GitHub support” → “get her support”<p>这些并不是生僻词汇——它们都是软件领域中非常常见的词汇,在日常对话中清晰地表达出来。与几年前即使在完全离线的情况下所能达到的准确性相比,这种差距显得尤为明显。<p>这主要是模型质量问题、流媒体/分段问题、激进的后处理,还是苹果语音处理架构中的某种结构性问题?真正的技术限制是什么?尽管现代硬件和云处理技术已经存在,为什么转录服务仍未得到改善?
1作者: afolkest大约 1 个月前原帖
在我攻读理论物理博士学位期间,我花了相当多的时间研究椭圆边值问题。我意识到这些问题能够从相对低维的输入(边界形状和条件)中生成令人满意的空间模式。与此同时,我接触到了线积分卷积(LIC),它可以生成具有丰富微观结构的矢量场的极其美丽的可视化效果。 我发现将LIC与椭圆偏微分方程结合起来,可以为制作二维视觉艺术提供非常丰富的基础元素。因此,在过去几个月里,我与Opus 4.5一起努力,开发出一个完整的绘图程序。目前,我只支持泊松方程和双调和方程,尽管我计划添加其他一些物理模型,以产生有趣的图案(例如,金兹堡-朗道超导方程)。 Elliptica 仍处于alpha阶段,但正在积极开发中,应该可以使用。
3作者: schnetzlerjoe大约 1 个月前原帖
嗨,HN 我最近结婚了,随即经历了一些情绪崩溃,决定锁自己在一个房间里,专心打造一段时间。 与此同时,我在为我的初创公司进行外部销售,但不断遇到同样的问题:我想要一个能够像人一样使用我电脑的自动化工具。点击用户界面、在应用之间复制粘贴、处理复杂的工作流程——不仅仅是API和网络钩子。 我找不到任何感觉合适的工具: - 对消费者友好(非技术性) - 本地优先 - 足够灵活以应对现实世界中的用户界面驱动任务 于是我挑战自己,看看能在多大程度上构建一个由AI驱动的开源桌面自动化应用。这就是Tasker。 在过去的2到3周里,我每天都在使用它来处理销售工作流程,而我的父亲则用它来帮助生成他HVAC(暖通空调)业务的估算。虽然还处于早期阶段(还需要扩展到通用操作系统),但它已经为我们在浏览器中的许多手动工作提供了替代方案。 有一件事变得非常明确:一个可以在定时任务上运行或通过HTTP触发的云/可部署版本将解锁许多使用场景。我还不太确定接下来该如何发展,但我想早点分享并获得反馈。 我很想听听大家的想法: - 你们会信任这样的工具来处理哪些工作流程 - 桌面与云的权衡 - 在实践中哪些地方会出现问题 - 这是否感觉有用,还是让人感到害怕 代码库和文档已在网站上链接。
1作者: tin7大约 1 个月前原帖
几年前,我开始使用一个名为 google-font-installer 的 npm CLI 包,因为我懒得提取、复制等。不幸的是,由于没有维护,该项目已被弃用。我决定对其进行分支(我最初只是打算分支项目并修复两行代码)。:D……大约 70 次提交后,我意识到我几乎重写了所有内容。 主要亮点包括:元数据缓存、无需 API 密钥、支持 WOFF2。 我想要一种类似于 npm install 的字体安装体验,我想我做到了! <a href="https://github.com/tinsever/google-font-cli" rel="nofollow">https://github.com/tinsever/google-font-cli</a> / <a href="https://www.npmjs.com/package/google-font-cli" rel="nofollow">https://www.npmjs.com/package/google-font-cli</a>
1作者: Megafeeder大约 1 个月前原帖
我想了解科技初创公司的创始人是在哪里以及如何找到优质的测试者,这些测试者能够提供相关且可行的反馈,比如哪些方面做得好,哪些方面不好,以及原因或哪些方法会更有效。谢谢!