返回首页
最新
我一直在尝试一个非常小的副项目:一个简单的投票/排名工具。每个人都有一次投票机会,结果以排名列表的形式展示,目标不是决策,而是讨论。
让我感到惊讶的是,这类项目在各个社区中被迅速视为垃圾信息,即使没有盈利、没有广告,也没有任何增长黑客的手段。在某些地方,仅仅提到“我做了一个小的排名工具”似乎就足以引发怀疑或被审查。
我并不是想在这里推广什么。我真心对这种动态感到好奇:
- 投票/排名工具是否因为常被用于操控或低质量参与而声誉不佳?
- 问题是格式本身(投票、排名),还是它们通常被引入的方式?
- 从社区的角度来看,什么样的实验会让人觉得是可以接受的,而不是垃圾信息?
如果你曾建立或管理过社区,或者推出过小型实验工具,我非常想听听你对此的看法。
我使用人工智能来搭建一个全新的应用程序,并将粗略的笔记转化为精炼的博客文章。两次都有人指出这不够真实。<p>但大多数软件都是衍生的,大多数写作都是对现有思想的重新阐述。我们一直都是站在巨人的肩膀上。<p>那么,真正的界限在哪里?原创性是否要求这个想法是你自己的,执行是你自己的,还是两者都要?使用人工智能辅助的工作与使用 Stack Overflow、模板或代笔作者的工作本质上有何不同?<p>我真心想知道 Hacker News 对此的看法。
嗨,HN,
我开发了一个完全在浏览器中运行的语音助手。
没有后端,也没有API调用。一切都在您的设备上运行。
这个项目的目标是看看基于浏览器的人工智能已经发展到什么程度,以及是否可以在客户端实现完整的语音处理管道,并且延迟在可接受范围内。
它的工作原理:
- 语音转文本:通过WebAssembly运行的Whisper tiny en
- 大语言模型(LLM):通过llama.cpp的WASM移植运行的Qwen 2.5 0.5B
- 文本转语音:原生浏览器的SpeechSynthesis API
响应实时流式传输。文本转语音在生成句子后立即开始说话,而不是等待完整的回复。
在首次加载后,它可以完全离线工作。没有任何数据离开设备。
为什么这很重要:
- 展示了现代浏览器、小型LLM和WASM现在所能实现的可能性。
注意事项:
- 由于WASM线程需要SharedArrayBuffer,要求使用Chrome或Edge 90及以上版本
- 初始下载约为380MB,之后会被缓存
- 目前仅支持英语
- 0.5B模型功能有限,但足够小可以在本地运行
在macOS和Linux桌面浏览器上进行了测试。由于内存和线程限制,我尚未能在移动设备上可靠运行此项目。
在浏览器中实现这一切花费的时间远超预期,原因是许多底层的WASM和浏览器问题。
演示:
[https://ava.muthu.co](https://ava.muthu.co)
源代码:
[https://github.com/muthuspark/ava](https://github.com/muthuspark/ava)
我非常希望能收到反馈,特别是来自那些在本地AI或基于浏览器的机器学习方面进行实验的人,以及关于提高性能或移动支持的想法。