返回首页
最新
我有一种感觉,通用人工智能(AGI)将会在某个人的地下室里实现。<p>你有什么想法吗?
大多数GEO/AEO工具仅停留在AI可见性层面,而Rankly更进一步,我们跟踪整个AI可见性漏斗,从提及到转化。随着品牌开始出现在大型语言模型(LLM)的结果中,下一个问题不再是可见性,而是流量质量和转化率。Rankly为高意图的LLM流量构建动态的数据驱动旅程。
嗨,HN,
我看到了一条推文:“听我说:X,但它只支持语音消息(带有AI转录)”——这让我一直在思考。
于是我构建了VoxConvo。
为什么会有这个平台:
AI生成的内容正在淹没社交媒体。ChatGPT的回复、机器人线程、到处都是AI的杂乱信息。
当你听到某人的真实声音时:他们的语调、犹豫、兴奋——你知道这是真实的。这种真实性正是我们所失去的。
所以我建立了一个简单的平台,语音是唯一的选择。
使用体验:
每个帖子都是语音加转录,并带有逐字时间戳:
阅读模式:像正常文本一样浏览转录;或听模式:点击播放,单词实时高亮。
你可以感受到语音的情感,同时又能像文本一样快速浏览。
主要功能:
- 语音短片
- 实时转录
- 可视化语音编辑——点击转录中的一个单词可以删除该音频片段,以去除填充词、错误和停顿
- 逐字时间戳同步
- 不生成LLM内容
技术细节:
后端运行在Mac Mini M1上:
- TypeGraphQL + Apollo Server
- MongoDB + Atlas Search(社区版Mongo + mongot)
- Redis发布/订阅用于GraphQL订阅
- Docker容器化,随时准备扩展
转录:
- VOSK实时gigaspeech模型大约占用7GB内存
- WebSocket流用于实时部分结果
- 逐字时间戳提取和标点模型
存储:
- 音频文件存储在AWS S3上
- 其他所有内容都在本地
为什么选择Mac Mini作为MVP?先验证需求,再考虑扩展。架构已容器化,随时可以迁移。但我宁愿在千兆光纤上证明需求,而不是浪费云预算。
大多数情况下,我希望查看完整的分支列表,而不是通过某些标准过滤后的子集。我发现 GitHub 默认的过滤视图更像是一个障碍,而不是帮助。由于 GitHub 并没有提供内置选项来更改这种默认行为,我创建了这个扩展程序,以便自动重定向到“所有分支”视图。
我个人已经使用这个扩展程序一段时间,以简化我的日常工作流程。最终,我将其扩展到支持 Azure DevOps,并决定将其公开提供给其他可能有相同偏好的开发者。
<a href="https://jurakovic.github.io/view-all-branches/" rel="nofollow">https://jurakovic.github.io/view-all-branches/</a>