返回首页
最新
找到地球上任意两个地点之间最短的可航行海路,并在三维地球仪上绘制出来。它还显示了运河区域的替代航线。<p>GitHub链接:<a href="https://github.com/aayushdutt/sea-routes" rel="nofollow">https://github.com/aayushdutt/sea-routes</a>
嗨,HN!我们是Gobhanu和Saatvik(兄弟),正在开发Vela(<a href="https://tryvela.ai">https://tryvela.ai</a>)——一个处理多方、多渠道调度的人工智能代理。
调度实际上是一个伪装成电子邮件的约束满足问题!当只有两个人、一个时区和一个渠道时,这很简单。但当输入是跨多个沟通渠道的非结构化自然语言,约束在解决过程中发生变化,目标函数包含在任何地方都没有正式定义的社交动态时,这就变成了一个约束满足问题。
如果调度可以自动进行呢?例如:一位招聘人员发送一条消息,所有五位候选人、三位招聘经理和两个时区的面试都能自动预定、确认并更新。没有链接,没有来回沟通,没有人花费数小时处理20封电子邮件。每个人只需在合适的时间,通过他们实际使用的任何渠道收到正确的邀请。这就是我们构建Vela的目的。
你只需将Vela集成到你的电子邮件、短信、WhatsApp、Slack、电话或ATS等系统中,它就会接管:读取上下文,检查日历,提出时间建议,当有人失联时进行跟进,并在情况变化时重新预定。
我们的第一个客户之一是一家招聘公司,他们几乎花了八年时间寻找调度解决方案。他们的协调员管理数百个候选人与客户的面试,每一方都需要单独的电子邮件线程、单独的Zoom账户以避免重复预定链接,以及连接从未直接沟通的各方的日历邀请。当一个客户重新安排一次面试时,会影响到其他四次面试。一位候选人在短信中回复了一个始于电子邮件的线程。Vela在仅10分钟的入职培训中就解决了这个问题。
最困难的部分是数据问题。调度行为在不同人群中差异巨大。高管们在几小时内回复电子邮件,并期望正式的三选一提议。而申请物流职位的卡车司机则在奇怪的时间通过共享设备回复短信,内容可能是“y tm wrks”。失败的模式不是解析问题,而是对错误人群应用了错误的互动模式,导致对话中断。我们一直在从数千次真实互动中构建行为数据集:按角色的响应延迟、按人口统计的渠道偏好、跟进时机曲线、在你遇到决策瘫痪之前提出多少选项。这些数据在任何地方都不存在。
核心代理挑战是跨渠道的状态管理。当有人在短信中回复一个始于电子邮件的线程时,Vela需要统一身份、合并上下文,并继续进行而不丢失信息。电话号码与电子邮件的映射并不清晰,人们在短信中使用昵称,共享设备意味着回复者可能不是你联系的那个人。时间自然语言理解(NLU)是一个独立的问题——“下周五”在周一和周四的含义不同。我们从自然语言中提取结构化约束,并与日历状态进行对比。当歧义无法解决时,Vela会询问——但决定何时询问与推断取决于错误的风险。
我们已经与付费企业客户上线,每个客户仍然会提出让我们惊讶的边缘案例。我们的案例研究可以在网站上查看(<a href="https://tryvela.ai/case-studies/">https://tryvela.ai/case-studies/</a>)。你可以在这里查看演示:<a href="https://www.youtube.com/watch?v=MzUOjSG5Uvw" rel="nofollow">https://www.youtube.com/watch?v=MzUOjSG5Uvw</a>。
我们非常希望听到任何在多代理协调、跨渠道对话AI或在复杂现实领域中的约束满足方面有经验的人的反馈。期待你的评论!
标题:展示 HN:PageAgent,一个嵌入在你网页应用中的图形用户界面代理
大家好,
我正在构建 PageAgent,这是一个开源(MIT)库,可以将 AI 代理直接嵌入到你的前端中。
我之所以开发这个,是因为我相信在我们已经使用的网页应用中,原生部署通用代理的设计空间非常广阔,而不是仅仅将网页视为孤立机器人的无脑目标。
目前,大多数 AI 代理都是通过外部客户端或服务器端程序运行的,这使得网页开发在 AI 生态系统中被排除在外。我正在尝试一种“自内而外”的范式。通过将这个库放入页面中,你将获得一个客户端代理,它可以原生地与实时的 DOM 树进行交互,并且可以直接继承用户的活动会话,这对于单页应用(SPA)来说非常有效。
为了处理跨页面的任务,我构建了一个可选的浏览器扩展,它充当“桥梁”。这使得网页代理能够在明确的用户授权下控制整个浏览器。与其让桌面应用控制你的浏览器,不如让你的网页应用成为一个通用代理,能够在更广泛的网络中进行导航。
我很想开始讨论这种架构的可行性,以及大家对应用内通用代理未来的看法。欢迎提出任何问题!
嗨,HN,我开发了Sokuji,这是一个开源的实时语音翻译应用程序,既可以作为Electron桌面应用运行,也可以作为Chrome/Edge浏览器扩展使用。
最新版本(v0.15)增加了本地推理模式——完全在设备上进行的自动语音识别(ASR)、翻译和文本转语音(TTS),使用WASM和WebGPU。无需API密钥,无需互联网,数据不会离开您的设备。它包含:
- 48种ASR模型,覆盖99种以上语言(sherpa-onnx WASM + Whisper WebGPU)
- 55个以上的翻译语言对(Opus-MT),以及通过WebGPU支持的多语言大型语言模型(Qwen 2.5/3/3.5)
- 136个TTS模型,涵盖53种语言(Piper, Coqui, Mimic3, Matcha)
对于喜欢云服务的用户,它还支持OpenAI实时API、Google Gemini Live、Palabra.ai、Volcengine ST、Doubao AST 2.0,以及任何与OpenAI兼容的端点。
该浏览器扩展与Google Meet、Teams、Zoom、Discord、Slack等集成——它可以捕获参与者的音频,并通过虚拟麦克风注入翻译后的语音。
技术栈:React + Zustand + Vite,Electron Forge,sherpa-onnx编译为WASM,HuggingFace Transformers.js用于WebGPU推理。模型按需下载并缓存于IndexedDB。
我开发这个工具是因为现有的翻译工具要么需要昂贵的API密钥,要么将您的音频发送到云端,或者不支持足够多的语言。本地推理模式使其适用于对隐私敏感的使用场景以及没有可靠互联网的人群。
采用AGPL-3.0许可证。可在Windows、macOS、Linux、Chrome Web Store和Edge附加组件中使用。
GitHub: [https://github.com/kizuna-ai-lab/sokuji](https://github.com/kizuna-ai-lab/sokuji)
官方网站: [https://sokuji.kizuna.ai](https://sokuji.kizuna.ai)
看起来 GitHub Actions 又出现故障了: https://www.githubstatus.com/
我们已经使用 Blacksmith 来避免使用 GitHub Runners。如果你还没有尝试过,强烈推荐。不过,我们仍然依赖 GitHub 来实际触发工作流。考虑到他们频繁的故障,我在想是否有其他可用的替代方案?迁移到 GitLab 是一个相当大的工程,因此我想知道是否有办法暂时缓解这个问题,而不依赖 GitHub Actions 定期触发工作流和在某些操作(例如合并到主分支时)上触发工作流?
我创建了Entropy是为了针对一个特定问题:传统的API扫描器常常因为依赖静态攻击列表而忽视业务逻辑缺陷。Entropy利用大语言模型(LLMs)分析您的API架构(OpenAPI/GraphQL),并像对手一样思考,以生成定制的攻击序列。注意:我目前正在修复一个小的打包问题,因此“pip install”在接下来的几个小时内可能暂时不可用。与此同时,您可以通过克隆代码库直接从源代码运行它。我非常期待听到您的想法和反馈!
嗨,HN,
我觉得将 traceroute 绘制在地图上,直观地展示数据包的传输路径会很有趣。我知道这个想法之前已经有人做过,但我还是想尝试一下。
最初的版本只是让你粘贴一个 traceroute,然后在地图上绘制跳数。后来我发现了 Globalping([https://globalping.io](https://globalping.io)),它允许你从全球的探测器运行 traceroute 和 MTR,因此我将其整合到了这个工具中。
在使用过程中,我注意到了一些有趣的事情:
• 很容易发现不正确的 IP 地理定位。如果某个跳数显示延迟为 1-2 毫秒,但却看起来跨越了几个大陆,那么这个地理定位可能是错误的。
• 有时候,次优路由在视觉上比仅仅查看延迟数字更容易被注意到。
• 即使使用像 IPinfo 这样非常好的数据库,IP 地理定位仍然不是完美的,因此路径的某些部分有时可能会产生误导。
非常感谢 Globalping 和 IPinfo 背后的团队——Globalping 提供了测量基础设施,IPinfo 提供了地理定位数据。
欢迎反馈。