1作者: bigEnotation大约 1 个月前原帖
在这个[周末](<a href="https:&#x2F;&#x2F;ctftime.org&#x2F;team&#x2F;425785" rel="nofollow">https:&#x2F;&#x2F;ctftime.org&#x2F;team&#x2F;425785</a>)进行了测试,花费了100美元,分别用于xai(35美元)、google(35美元)和anthropic(25美元)。<p>- xai:grok-4-1-fast-reasoning解决了8个问题<p>- google:gemini-3-flash-preview解决了5个问题(基于xai的基础上)<p>- anthropic:opus-4-5没有解决任何额外的问题,另外由于不断出现429速率限制,我感到有些烦恼,真希望当初换用openai,但我不想继续花钱。<p>在web和加密领域表现不错,但在pwn方面表现较差。<p>基于开发容器构建。
1作者: sumit_entr42大约 1 个月前原帖
嘿,HN, 我经常处理一些比较混乱的CSV和JSON文件——重复数据、不一致的格式,或者就是难以检查。 我通常需要在Excel、脚本和一些随机的在线工具之间跳来跳去。 所以我开始构建一个小型的基于浏览器的工具,以便简化这个过程。 现在它可以让你: - 在JSON、CSV和Excel格式之间转换 - 快速去除重复项 - 以可视化的方式过滤和重塑数据 - 检查文件中的基本问题 还有更多功能。 所有操作都在浏览器中进行——无需上传到服务器。 虽然还处于早期阶段,但我很想知道你们对这个产品的体验和看法。 也许我遗漏了什么,或者思考不够全面,你们的反馈对我来说非常重要。 期待你们的反馈。 我想问的是: - 在你的数据工作流程或数据任务中,有什么事情让你觉得拖慢了进度,或者经常让你感到尖锐的痛苦? 链接: [https://www.datumintapp.com/](https://www.datumintapp.com/)
1作者: yubainu大约 1 个月前原帖
我开发了 SIB-ENGINE,一个实时幻觉检测系统,监测大型语言模型(LLM)的内部结构,而不是输出内容。 <p>关键结果(Gemma-2B,N=1000): • 54% 的幻觉检测率,假阳性率为 7% • 计算开销 <1%(在 4GB 显存的 RTX 3050 上运行) • ROC-AUC:0.8995 <p>为什么它不同: 传统方法对输出文本进行语义分析。SIB-ENGINE 监测生成过程中隐藏状态的“几何漂移”,在第一个错误标记被采样之前识别潜在空间的结构崩溃。 <p>这种方法提供了独特的优势: • 实时干预:可以在生成过程中随时停止 • 语言无关:无需进行语义分析 • 保护隐私:从不读取实际内容 • 极其轻量:可在消费级硬件上运行 <p>工作原理: SIB-ENGINE 监测模型计算的内部稳定性。虽然系统利用多种结构信号来检测不稳定性,但两个主要指标包括: <p>表示稳定性:跟踪初始意图在模型变换空间中是如何被保留或扭曲的。 <p>跨层对齐:监测不同神经层次之间信息处理的一致性,以识别早期的偏离。 <p>当这些(以及其他专有结构信号)偏离预期的稳定流形时,系统会在输出中显现之前标记出潜在的幻觉。 <p>演示与代码: • 演示视频:<a href="https://www.youtube.com/watch?v=H1_zDC0SXQ8" rel="nofollow">https://www.youtube.com/watch?v=H1_zDC0SXQ8</a> • GitHub:<a href="https://github.com/yubainu/sibainu-engine" rel="nofollow">https://github.com/yubainu/sibainu-engine</a> • 原始数据:raw_logs.csv(完全透明) <p>局限性: • 仅在 Gemma-2B 上测试(2.5B 参数) • 设计为可扩展,但需要在更大模型上验证 • 捕捉“结构不稳定”的幻觉(约占一半) • 最好作为集成系统中的第一道防线 <p>技术说明: • 不需要外部模型(与自一致性方法不同) • 不需要知识库(与 RAG 方法不同) • 增加约 1% 的推理时间,而语义方法则为 300-500% • 通过监测过程而非产品来工作 <p>我希望得到反馈: • 在更大模型上的验证(寻求战略合作伙伴和计算资源以进行大规模验证。) • 生产系统的集成模式 • 与其他结构方法的比较 • 几何信号失效的边缘案例 <p>这代表了一种根本不同的范式:我们不再问“这段文本正确吗?”,而是问“生成过程是否不稳定?”答案出乎意料地富有信息。 <p>欢迎在评论中讨论技术细节!
10作者: b0bbi大约 1 个月前原帖
嗨,HN, 不久前,我有了一个略显沮丧的领悟。 在2010年,我有大约6万美元。作为一个“负责任”的人,我把这笔钱用作了公寓的首付款。最近出于好奇,我计算了一下,如果当初把这笔钱投入到NVIDIA股票中,会发生什么。 我可能需要补充一些背景信息。 在过去的10多年里,我一直在交易平台和金融基础设施方面担任开发人员。我个人从未在公开市场上进行过交易。早期我给自己定下了一个简单的规则:“永远不参与”。 2015年,当比特币的交易价格大约为300美元时,我和我兄弟讨论过它是否是一个泡沫。他大胆地声称有一天它可能会达到每枚10万美元。我记得当时觉得这听起来不切实际——即使不是,我也不会打破我的规则。 这种内心的紧张感——在市场周围构建系统,同时故意不参与其中,可能正是多年后让我更难忽视“如果……会怎样?”这个问题的原因。 结果令人不安。机会成本达到了数千万美元。 这个想法在我心中停留的时间比我想象的要长,因此我决定做一个小实验,让这种遗憾变得可量化: [https://shouldhavebought.com](https://shouldhavebought.com) 从本质上讲,这个应用程序做了一件基本的事情: 你输入一个资产、一个金额和两个日期,它会给你一个简单的数字结果——本质上是一个错失机会的收据。 我故意设计了一个原始且简约的用户界面,几乎像90年代末的终端。没有图表,没有图片,没有情感上的缓冲——只有一个数字在盯着你。 让我感到惊讶的不是结果,而是构建这样一个看似简单的东西所需的现代网络基础设施。 尽管这个应用程序只有一个页面,几乎没有用户界面元素,但它仍然需要: - 客户端反应性,以实现响应式的终端体验(Alpine.js) - 一个传统的后端(Laravel)来验证输入并聚合历史市场数据 - 对不同资产和事件(拆分、缺口、缺失天数)进行时间序列数据的标准化 - 动态OG图像生成以便于社交分享(颜色/状态反映收益与损失) - 显示最近计算结果的实时信息流(“痛苦墙”),使用WebSockets而不是托管服务实现 - 缓存和性能调优,以保持体验的即时性 - 处理移动设备字体渲染和布局问题,尽管用户界面“简单” - 定时任务和队列处理历史数据更新 这一切只是为了显示一个数字。 因为市场不是单向的,我还添加了一个我最初没有计划的第二种模式:“躲过子弹”。 如果某人在重大崩盘前几乎购买了一个资产,终端状态会翻转,显示他们通过不作为保留了多少资本。实际上,这与错失的收益一样情感充沛。 构建这个让我反思网络上“简单”的外表是多么具有欺骗性。正如我认识的一位经理所说:“这只是添加一个按钮”,但即使是今天重现一个故意原始的体验,也需要理解前端反应性、后端架构、实时传输、社交元数据、部署和性能权衡。 我并不是将这个作为产品来构建,而是作为一个实验——部分出于个人好奇,部分出于技术探索。 我很想听听其他人对以下问题的看法: - 他们个人在小项目上对技术栈复杂度的界限在哪里? - 他们是否会为这样的项目选择完全静态+边缘函数? - 对于一个故意简约的界面,多少基础设施算是“过多”? - 另外,您最糟糕的“应该买”时刻是什么? 如果有需要,我很乐意回答任何技术问题或深入探讨具体的实现细节。
5作者: Kapura大约 1 个月前原帖
我希望能看到一些人工智能在各个职位和行业中带来革命性变化的例子。我有一个朋友在一家大型咨询公司,他提到人工智能在短时间内处理大量文档方面已经成为了一个游戏规则的改变者。至于这是否能带来更好的结果则是另一个问题,但我很想听听更多关于人工智能实际改善事物的故事。
1作者: T0mSIlver大约 1 个月前原帖
我开发了一款原生的 macOS 菜单栏应用,用于实时听写,完全可以在设备上运行。<p>大多数听写工具,即使是本地工具,也使用 Whisper 或类似的离线模型:你录音后,需要等待转录结果。而 Localvoxtral 使用了 Mistral 的 Voxtral Realtime,这是首批具有原生流式架构的开源语音模型之一。你说话时,文字会实时出现,而不是在你停止后才显示。这种体验更像是有人在你说话时同步打字。<p>按下快捷键,开始说话,文本会直接输入到你正在使用的应用中。无需云端,无需订阅,数据不离开你的设备。<p>有两种后端选项:<p>在 Apple Silicon 上的 voxmlx:我对 voxmlx 进行了分支,添加了 WebSocket 服务器和内存优化。在 M1 Pro 上运行 4 位量化模型。音频和推理完全在设备上进行。<br>在 NVIDIA GPU 上的 vLLM:在 RTX 3090 上测试,速度明显更快。<p>该应用是原生 Swift 开发(约 97%),位于菜单栏中,不会干扰你的工作。支持可配置的快捷键、麦克风选择和自动粘贴功能。<br>GitHub: <a href="https:&#x2F;&#x2F;github.com&#x2F;T0mSIlver&#x2F;localvoxtral" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;T0mSIlver&#x2F;localvoxtral</a><p>在 Releases 中提供预构建的 DMG 文件。