返回首页
最新
嗨,HN,
不久前,我有了一个略显沮丧的领悟。
在2010年,我有大约6万美元。作为一个“负责任”的人,我把这笔钱用作了公寓的首付款。最近出于好奇,我计算了一下,如果当初把这笔钱投入到NVIDIA股票中,会发生什么。
我可能需要补充一些背景信息。
在过去的10多年里,我一直在交易平台和金融基础设施方面担任开发人员。我个人从未在公开市场上进行过交易。早期我给自己定下了一个简单的规则:“永远不参与”。
2015年,当比特币的交易价格大约为300美元时,我和我兄弟讨论过它是否是一个泡沫。他大胆地声称有一天它可能会达到每枚10万美元。我记得当时觉得这听起来不切实际——即使不是,我也不会打破我的规则。
这种内心的紧张感——在市场周围构建系统,同时故意不参与其中,可能正是多年后让我更难忽视“如果……会怎样?”这个问题的原因。
结果令人不安。机会成本达到了数千万美元。
这个想法在我心中停留的时间比我想象的要长,因此我决定做一个小实验,让这种遗憾变得可量化:
[https://shouldhavebought.com](https://shouldhavebought.com)
从本质上讲,这个应用程序做了一件基本的事情:
你输入一个资产、一个金额和两个日期,它会给你一个简单的数字结果——本质上是一个错失机会的收据。
我故意设计了一个原始且简约的用户界面,几乎像90年代末的终端。没有图表,没有图片,没有情感上的缓冲——只有一个数字在盯着你。
让我感到惊讶的不是结果,而是构建这样一个看似简单的东西所需的现代网络基础设施。
尽管这个应用程序只有一个页面,几乎没有用户界面元素,但它仍然需要:
- 客户端反应性,以实现响应式的终端体验(Alpine.js)
- 一个传统的后端(Laravel)来验证输入并聚合历史市场数据
- 对不同资产和事件(拆分、缺口、缺失天数)进行时间序列数据的标准化
- 动态OG图像生成以便于社交分享(颜色/状态反映收益与损失)
- 显示最近计算结果的实时信息流(“痛苦墙”),使用WebSockets而不是托管服务实现
- 缓存和性能调优,以保持体验的即时性
- 处理移动设备字体渲染和布局问题,尽管用户界面“简单”
- 定时任务和队列处理历史数据更新
这一切只是为了显示一个数字。
因为市场不是单向的,我还添加了一个我最初没有计划的第二种模式:“躲过子弹”。
如果某人在重大崩盘前几乎购买了一个资产,终端状态会翻转,显示他们通过不作为保留了多少资本。实际上,这与错失的收益一样情感充沛。
构建这个让我反思网络上“简单”的外表是多么具有欺骗性。正如我认识的一位经理所说:“这只是添加一个按钮”,但即使是今天重现一个故意原始的体验,也需要理解前端反应性、后端架构、实时传输、社交元数据、部署和性能权衡。
我并不是将这个作为产品来构建,而是作为一个实验——部分出于个人好奇,部分出于技术探索。
我很想听听其他人对以下问题的看法:
- 他们个人在小项目上对技术栈复杂度的界限在哪里?
- 他们是否会为这样的项目选择完全静态+边缘函数?
- 对于一个故意简约的界面,多少基础设施算是“过多”?
- 另外,您最糟糕的“应该买”时刻是什么?
如果有需要,我很乐意回答任何技术问题或深入探讨具体的实现细节。
我希望能看到一些人工智能在各个职位和行业中带来革命性变化的例子。我有一个朋友在一家大型咨询公司,他提到人工智能在短时间内处理大量文档方面已经成为了一个游戏规则的改变者。至于这是否能带来更好的结果则是另一个问题,但我很想听听更多关于人工智能实际改善事物的故事。
我开发了一款原生的 macOS 菜单栏应用,用于实时听写,完全可以在设备上运行。<p>大多数听写工具,即使是本地工具,也使用 Whisper 或类似的离线模型:你录音后,需要等待转录结果。而 Localvoxtral 使用了 Mistral 的 Voxtral Realtime,这是首批具有原生流式架构的开源语音模型之一。你说话时,文字会实时出现,而不是在你停止后才显示。这种体验更像是有人在你说话时同步打字。<p>按下快捷键,开始说话,文本会直接输入到你正在使用的应用中。无需云端,无需订阅,数据不离开你的设备。<p>有两种后端选项:<p>在 Apple Silicon 上的 voxmlx:我对 voxmlx 进行了分支,添加了 WebSocket 服务器和内存优化。在 M1 Pro 上运行 4 位量化模型。音频和推理完全在设备上进行。<br>在 NVIDIA GPU 上的 vLLM:在 RTX 3090 上测试,速度明显更快。<p>该应用是原生 Swift 开发(约 97%),位于菜单栏中,不会干扰你的工作。支持可配置的快捷键、麦克风选择和自动粘贴功能。<br>GitHub: <a href="https://github.com/T0mSIlver/localvoxtral" rel="nofollow">https://github.com/T0mSIlver/localvoxtral</a><p>在 Releases 中提供预构建的 DMG 文件。
我是一名软件工程师/网站可靠性工程师,花了很多时间为我所工作的团队构建和维护内部命令行工具。此外,总有一些零散的脚本需要整理。我厌倦了每次想要自动化新工作流程时,都要处理打包、分发和编写解析器的繁琐工作。
因此,我创建了mici来解决这个问题,无论是在工作中还是个人项目中。它是一个非常简单的工具,但对我来说能完成任务。
mici是一个基于Rust的运行器,它将你的目录结构转换为命令行界面。你只需将一个YAML文件放入mici文件夹中,命令就可以运行了。如果你使用过GitHub Actions,语法会非常熟悉。
它可以处理“无聊”的部分,比如输入验证、帮助文档、命令注册等,因此你可以专注于实际想要编写的逻辑/脚本。它也可以在Unix和Windows系统上运行。
目前仍处于早期阶段(v0.x),但我正在朝着v1.0的方向努力,计划增加并行执行和更好的步骤隔离等功能。希望README和示例对新用户足够详尽。我非常希望能得到对这个方法的反馈。
代码库可以在这里找到: [https://github.com/rwxdash/mici](https://github.com/rwxdash/mici)
嗨,HN——我创建了 Satisfice.app,因为我是一个习惯性过度思考的人,总是陷入想法的循环,而无法付诸实践。
问题:
我会产生一个想法,反复研究,反复调整概念,最终在构建任何东西之前就失去了动力。
Satisfice 的作用:
它帮助你快速检验一个想法,以便你可以决定是否:
- 立即发布
- 简化
- 转变方向
- 或者停止浪费时间在这个想法上
我们的目标不是“完美分析”——而是帮助创始人以足够的清晰度向前推进,采取行动。
为什么叫这个名字:
“Satisficing” = 选择一个足够好的选项来满足目标,而不是永远进行优化。
适用对象:
- 独立开发者
- 副业项目建设者
- 有太多想法但启动不足的创始人
我希望能得到以下反馈:
1. 是什么让你个人停止过度思考,开始付诸实践?
2. 你使用什么信号来快速验证一个想法?
3. 什么会让这样的工具在你的工作流程中真正有用?
我开发了 awsim,这是一个用 Go 语言编写的轻量级 AWS 模拟器,用于 CI/CD 测试。<p>核心服务(S3、DynamoDB、SQS、Lambda、IAM)已实现,40 多个服务正在开发中。<p>- 单一二进制文件,无需身份验证
- 即时启动,内存存储
- 欢迎贡献<p>欢迎反馈!
我开发了一款 macOS 语音输入应用,所有功能都在设备上运行,包括转录、自动纠错和翻译。没有音频或文本会离开你的机器。
该应用配备了四个可切换的转录引擎:WhisperKit(支持99种语言)、NVIDIA Parakeet TDT 0.6B(支持25种欧洲语言,速度最快)、Qwen3-ASR 0.6B(支持30种语言)以及 macOS 26+ 上的 Apple Speech。它们都通过 CoreML/Metal 运行。Whisper 是最灵活的,Parakeet 在处理欧洲语言时延迟最低,而 Qwen3 在处理中日韩语言时表现更佳。我采用了基于协议的架构,这样你可以选择适合自己使用场景的引擎,而不是我假装某个模型可以满足所有需求。
转录完成后,还有一个可选的后处理管道,使用 Apple Intelligence(FoundationModels 框架,macOS 26+,同样完全在设备上运行):包括自动纠错、填充词去除、语气重写和翻译。烦人的部分是 FoundationModels 的冷启动。第一次推理在闲置后需要 2-3 秒,这会影响用户体验。我通过在音频仍在转录时并行触发一个一次性的小推理(`session.respond(to: "ok")`)来解决这个问题,这样当文本到达时模型已经预热。虽然这个方法有些 hack,但确实减少了感知延迟。
将转录文本输入到任意 macOS 应用中,老实说是最困难的部分。我使用剪贴板保存/恢复:读取所有 NSPasteboard 类型(不仅仅是字符串,还有图像、RTF,用户复制的任何内容),写入转录文本,通过 CGEvent 模拟 Cmd+V 事件,然后恢复原始剪贴板。Electron 应用处理粘贴事件的速度较慢,因此我通过检查应用包中是否存在 `Contents/Frameworks/Electron Framework.framework` 来检测它们,并添加额外的延迟。整个方法需要无障碍权限,这意味着不能使用沙盒,也就无法上架 App Store。我对此权衡是可以接受的。
我独自花了大约 6 周时间完成这个项目。一次性购买,无需订阅。
我对多引擎的做法感到有些不确定。让用户在 Whisper、Parakeet 和 Qwen3 之间选择是否有用,还是大多数人更希望我根据他们的语言自动选择?我也很好奇是否有人对 macOS 上的文本注入有更简洁的方法。剪贴板的 hack 在任何地方都有效,但感觉有些脆弱,我并不喜欢这个方法。