2作者: krschacht22 天前原帖
我和一个朋友开发了一个浏览器原型,可以通过使用 getDisplayMedia、客户端唤醒词检测和服务器端多模态推理来回答屏幕上显示的内容的问题。 <p>困难之处:</p> – 让模型能够指向特定的用户界面元素 – 在多步骤工作流程中保持一致性(例如:“帮我在 Tinkercad 中创建一把剑”) – 防止无限镜像效应,以及窗口共享与全屏共享之间的混淆 – 保持语音 → 截图 → 推理 → 语音的延迟足够低,以便让对话感觉自然 我们把它包装成“Clippy”以增加趣味,但真正的实验是让模型工具调用新的截图,以帮助它获取更多上下文。 <p>一个实际的应用案例是远程技术支持——下次我妈妈打电话时,我会把这个发给她,而不是进行屏幕共享。</p> <p>想知道哪些地方会出问题。</p>
2作者: johnnyChiv22 天前原帖
嘿,HN, 几周前我在这里发布了Knowza.ai,这是一个AWS认证考试准备平台,配有智能学习助手。我收到了关于注册和试用过程的一些非常有价值的反馈。 我想真诚地感谢每一位抽出时间试用、留下评论和分享建议的人。这对我来说真的很重要。 基于这些反馈,我进行了许多改进,并很高兴地分享现在有了一个免费套餐:您可以直接尝试10道练习题,无需注册/订阅,也不需要信用卡。 这对注册人数和注册后的互动产生了显著影响。我网站的转化率从约1%提升到了18%。 简要回顾一下Knowza的功能: - 针对AWS认证考试的练习题 - 由Claude在Bedrock上提供的即时解释 - 涵盖多个AWS认证 希望您能再看一眼,并告诉我您的想法。我始终欢迎反馈。 [https://knowza.ai](https://knowza.ai)