返回首页
最新
随着夏天的临近,我们周围的邻居们在自家院子里待的时间越来越多。这通常是件好事,但也可能导致孩子们的喧闹声和各种音乐的混杂。我不想通过提高音量来压过他们的音乐,也不想阻止他们享受自己的院子。
所以我在想,是否有某种扬声器或系统,可以让我们在院子的某个区域坐下来,使用“噪音消除”功能,屏蔽外界的声音,而不影响他们的乐趣呢?
嗨,HN,我们是Roya和Michael,Opusense AI的联合创始人(<a href="https://www.opusense.com">https://www.opusense.com</a>),我们的工具旨在帮助工程师和顾问自动生成建筑工地报告,支持通过文字或语音笔记以及照片生成报告。
这里有一个视频:<a href="https://www.youtube.com/watch?v=u3Pi1iih1_Y" rel="nofollow">https://www.youtube.com/watch?v=u3Pi1iih1_Y</a>。
在此之前,我(Roya)曾在华为从事人机交互工作,之前还在土木工程公司担任建筑工地检查员。我拥有土木工程博士学位,基于我的经验,报告撰写无疑是工作中最繁琐和令人厌倦的部分。
你会整天在工地上走来走去,做一些简短的笔记(有时,你可能会依赖记忆),并拍摄照片,然后再去三个工地,最后才回到办公室,努力回忆你想写的所有内容。有时你会凭记忆填补空白,或者故意保持模糊。报告必须保持一致、符合品牌要求,并由高级工程师审核。这在团队中耗费了大量时间。
撰写报告是工作中最糟糕的部分,因此我们创建了Opusense来解决这个问题。在现场,用户可以输入或口述简短的笔记(例如:“混凝土板东端钢筋暴露”),该工具会将其转换为完整的句子、段落、表格或符合公司格式的报告模板中的照片说明。你可以离线工作,在线时会自动同步。
大多数检查和报告工具都是为清单式工作流程设计的(这对于家庭检查或缺陷清单很有用),但土木、结构、环境或岩土工程师通常需要自由形式的笔记,而不是单选按钮。
这特别适合大型语言模型(LLMs),因为工程现场报告存在于一个受限且传统的领域:相似的语言、重复的结构以及跨公司和项目高度标准化的内容。这里有很多冗余和繁琐的工作,比如总结相同的现场条件、格式化重复的数据、将现场笔记转换为精炼的段落,所有这些都可以通过适当的提示和保护措施来很好地处理。我们并不是在生成任意的散文,而是在将结构化的输入(笔记、图像、表单)转换为结构化的输出,使用公司定义的模板和必填字段,从而最大限度地降低幻觉的风险。当事实至关重要时(例如测试结果或测量值),我们会将其与用户的输入保持一致,模型不会凭空捏造数据,因为没有可供其创造的内容。这使得LLMs在这种情况下不仅仅是新奇的工具,而是真正适合这项工作的最佳工具。
在技术层面上,我们结合了经过提示工程优化的LLMs和公司特定的格式规则,以获得不仅听起来不错,而且看起来也正确的输出。我们最近增加了翻译功能,并根据现场反馈快速迭代。我们的收费是按席位计算,目前已在中型公司部署,并与一些每周需要提交数千份报告的跨国工程公司进行试点。我们也开始看到来自进行内部质量保证报告的施工经理和开发商的兴趣。
我们目前还没有自助试用产品的方式,因为我们的业务模式要求模板根据公司进行定制。但可以在这里查看演示:<a href="https://www.youtube.com/watch?v=u3Pi1iih1_Y" rel="nofollow">https://www.youtube.com/watch?v=u3Pi1iih1_Y</a>,如果你想自己探索用户界面,这里有一个样本账户供你登录:
<pre><code> 登录: hndemo@opusense.com
密码: OpusenseHacker2025
</code></pre>
该应用程序可在Apple和Google Play商店下载。当生成样本报告时,你可以使用相同的登录凭据登录网页界面,通过我们的网站(www.opusense.com)在线查看报告。
我们很想听听其他人对现场工作、报告或类似工作流程(工程、建筑等)工具的看法。如果你在这个领域有过开发经验,或者对如何改进它有想法,我们非常欢迎你的分享!
在三简单步骤内,您可以为孩子们创作量身定制的故事,且不超过5分钟。描述主要角色和可选的次要角色。选择或输入一个故事主题,并挑选您喜欢的插画风格。生成故事文本、封面和页面插图,并立即获取可下载的PDF文件!<p>非常适合家长使用或作为特别礼物!
嘿,HN,
作为个人30天技术成长挑战的一部分,我用Python构建了一个基本的命令行应用程序,可以让你保存、查看和删除个人名言。
这个应用很简单,但我的目的是让自己更习惯于构建真实的东西,并每天分享。你可以在终端或Jupyter笔记本中运行它,它只使用了基本的Python(列表、循环、函数等)。
如果有做过类似挑战的人,欢迎提供反馈——或者分享一下如何在此基础上继续成长的想法。
谢谢!
你用来构建语音代理的最佳技术栈和方法是什么?<p>我的困惑如下:<p>1. 语音对语音的技术很有前景,但在质量上还不够理想。不确定底层使用了什么样的模型,但根据我的经验,响应质量比4o还要差。<p>2. 我没有使用过Livekit,但它似乎非常受欢迎。不过不太明白为什么需要它。<p>3. 中断处理:我没有遇到过能够很好处理中断的模型或系统。根据我的经验,即使是4o,在大约两分钟的对话后,遇到一次中断也会变得非常困惑。
嗨,HN!<p>我在一段时间前读到了关于Janet的文章,立刻被它的社区热情和这门语言本身所吸引,于是我开始尝试使用它。<p>当时我在寻找一个适用于Windows的平铺窗口管理器,不可避免地,我萌生了用Janet来解决自己的需求的想法,于是Jwno应运而生。<p>简单来说,Jwno是一个基于键盘操作的Windows平铺窗口管理器,可以通过Janet进行脚本编写。但由于它拥有完整的Lisp运行时和一个薄薄的Win32 API封装库,你当然可以用它做更多的事情。<p>我希望你们能像我在构建它时那样享受使用它的乐趣。<p>对了,我在Linux上使用StumpWM。<p>[1]: <a href="https://ianthehenry.com/posts/why-janet" rel="nofollow">https://ianthehenry.com/posts/why-janet</a><p>[2]: <a href="https://janet-lang.org/" rel="nofollow">https://janet-lang.org/</a><p>[3]: <a href="https://github.com/agent-kilo/jw32">https://github.com/agent-kilo/jw32</a>
一种低成本的替代方案,Otter及类似服务使用AssemblyAI和Openrouter的API。
最近我一直在使用基于大型语言模型(LLM)的代理进行开发,但遇到了一些反复出现的挑战:
1. 提示设计 - 确保代理的行为符合预期,而不需要过长或脆弱的指令。
2. 上下文共享 - 在时间上或代理之间传递记忆、结果和状态,而不至于使系统过载。
3. 成本 - 随着规模的扩大,令牌的费用迅速增加。
我很好奇其他人认为这里的真正瓶颈是什么,以及有没有解决这些问题的技巧或窍门。你们是在围绕令牌限制、内存持久性、优化提示设计等方面进行优化吗?
我很想听听你们对此的看法,或者是否有我们都忽视的更聪明的方法。提前感谢!
大家好,我是新来的,想向大家介绍我正在开发的项目。
Astra 是一个简单但强大的 Node.js 到 EXE 的编译器。它使用 esbuild 和 Node SEA,利用 postject 将您的代码注入到 Node.js 二进制文件中。它更专注于编译命令行工具和服务器(如 pkg 或 nexe(express)),而不是像 Electron 或 Tauri 这样的全栈应用程序。它对 ESM 和 TypeScript 提供了丰富的支持,并且在开发体验(DX)和命令行用户体验(CLI UX)方面表现良好。我之所以开发它,是因为我不喜欢使用 pkg 或 nexe,它们在处理 ESM 时会引发很多问题。
限制:目前,它在编译包含二进制依赖项的项目(例如 bcrypt、rcedit)时存在问题,并且仅支持 Windows,但我正在努力解决这个问题。
如果你喜欢这个项目,请留下评论,告诉我你的想法!