返回首页
最新
作为一个花费大量时间进行世界构建和桌面角色扮演游戏(TTRPG)的人,我一直觉得现有的工具存在一些不足。现有的名称生成器在根据规则组合音节方面表现不错,但无法传达一种感觉或氛围。你无法要求它们生成一个听起来像“一个古老的沉没王国”的名字。
Nomenus 是我试图解决这个问题的工具。它是一个基于人工智能的工具,围绕一个简单的提示构建,允许你用自然语言描述你想要的名字。
例如,你可以请求它为“一个脾气暴躁但忠诚的矮人铁匠,他秘密热爱诗歌”生成名字,它会根据这个特定的背景生成结果,通常还会附带一些背景故事。
你看到的网站是第一个最小可行产品(MVP)。它是用 Next.js(应用路由)、Supabase 构建的,并运行在 Cloudflare Workers 上。
我在这里在 Hacker News 上发布它,希望能从一个欣赏产品构建过程的社区获得诚实的反馈。我特别想了解:
这个核心概念是否真的比传统生成器更有用?
对用户界面/用户体验有什么看法?
我接下来应该优先考虑哪些功能或生成器类型?
这个工具完全免费使用。期待听到你的想法!
我们需要一个能够在 iOS 和 macOS 上每隔几秒运行一次的说话者分离解决方案,同时进行转录。然而,原生的 Swift 支持要么有限,要么被锁定在付费许可后。由于说话者分离在语音转文本工作流程中是一个常见需求,我们决定将我们的工作开源,以回馈社区。
我们最初尝试了 sherpa-onnx,虽然可以工作,但同时运行说话者分离和转录模型会使旧设备变得缓慢。仅使用 CPU 进行推理并不适合近实时的工作负载,因此我们希望能够将分割和说话者嵌入的任务转移到 GPU 或 ANE。特别是支持 M1 Mac 意味着需要将更多的工作负载推向 ANE。
我们没有将 ONNX 模型强行嵌入到 CoreML 中,而是直接将原始的 PyTorch 模型转换为 CoreML。这种方法在 PyTorch 和 pyannote 代码中需要进行一些修改,但初步基准测试结果看起来很有希望。
我们非常欢迎反馈!我们目前正在努力添加语音活动检测(VAD)并集成 Parakeet 进行转录,但仍在与 CoreML 模型转换作斗争。
今天花了一整天尝试设置这个,但没有成功。想知道其他人发现了什么。似乎在支持的传输方式上存在一些不确定的共识,虽然我确实让STDIO传输工作了,但理想情况下,我想使用HTTP(S)(我希望能够部署一个独立的MCP服务器,以便可以连接到聊天/应用等)。<p>根据我所了解,这个技术还很新,几乎没有客户端真正支持流式HTTP的功能。SSE的替代方案也不是很清楚(显然已经被弃用)。<p>我是在犯傻,还是说这真的是如此前沿,以至于充满了问题和困惑?答案五花八门,似乎只有STDIO是稳定和可用的。<p>我尝试的所有方法都没有成功。
OopisOS 不是一个网站;它是一个完整的操作系统模拟,完全在您的机器上运行。没有后端服务器。您创建的每一个文件、添加的每一个用户、运行的每一条命令都在本地处理和存储。您的世界完全属于您自己,由您控制的强大安全模型所管理。
这个项目的起点是一个问题:能否仅凭网络的原生工具构建一个复杂的、有状态的多用户系统?答案是肯定的。OopisOS 是一个生动的示范,展示了当现代浏览器的能力与严谨的、无框架的架构结合时,能够实现什么。