Built an iOS app that runs a local OCR server using Apple's Vision Framework.<p>Creates a REST API endpoint accessible from any device on your network. No cloud services needed - everything processes locally on the phone.<p>Available on App Store (searching "OCR Server").<p>Would appreciate feedback on the architecture or similar mobile-as-server projects you've seen.
返回首页
最新
A motion-graphic comparison website in the vein of LMArena. The videos are rendered via Remotion.<p>We hope that AI will be used in interesting ways to help with video production, so we wanted to give some of the models available today a shot at some basic graphics.
Hello HN! Recently, we have released Nocturne 3.0.0, which is a complete replacement for the (now unusable) Spotify Car Thing stock firmware. We're proud to eliminate more e-waste in the world.<p># Changes from v2
- Bluetooth tethering for car use (no more Raspberry Pi in the car)
- Full graphics acceleration
- Native Spotify login (no more client ID/secret)
- Start DJ from the Car Thing
- Podcast support
- Gesture control
- New settings
- Boot to Now Playing
- Spotify Connect device switcher
- Support for Japanese, Simplified Chinese, Traditional Chinese, Korean, Arabic, Devanagari, Hebrew, Bengali, Tamil, Thai, Cyrillic, Vietnamese, and Greek
- Full knob control support
- Local file support
- Preset button support
- Status bar on home (shows time & Bluetooth/Wi-Fi)
- Auto brightness
- Hold settings button for power menu
- Lock screen showing time full screen (press settings button)
- DJ preset binding (hold preset button while DJ is playing in Now Playing)
- Spotify mixes in Radio tab (Discover Weekly, daily mixes, etc.)
- OTA updates
- + MUCH more (this is just the important stuff!)<p># Flashing
A guide to flashing Nocturne 3.0.0 is in the README. Bluetooth will work out of the box, or choose an alternative in the Setting up Network section. Hotspot capability from your phone and plan are required for Bluetooth.<p># Notes
This wouldn’t be possible without our donors and the rest of the Nocturne Team. We hope you’ll enjoy it, as we've spent thousands of hours working on it!<p>Consider buying the team a coffee if you can <a href="https://usenocturne.com/support" rel="nofollow">https://usenocturne.com/support</a><p><a href="https://github.com/usenocturne/nocturne/releases/tag/v3.0.0" rel="nofollow">https://github.com/usenocturne/nocturne/releases/tag/v3.0.0</a>
我们创建了Humanmark,以提供加密证明,确保请求来自于人类。它利用智能手机中的安全硬件来生成用户存在的证明。
关于试用的说明:该演示需要从App Store或Play Store安装我们的免费应用程序。
背景故事:我们曾尝试构建一个仅限人类使用的在线服务,并发现现有的现成验证方法无法在合理的程度上强制执行这一点。验证码(CAPTCHA)很容易被自动化程序破解,人工智能可以欺骗行为分析,而代理程序自我识别为人类。现有工具在防止恶意机器人破坏服务方面表现尚可,但在区分良性机器人和人类方面则效果不佳。我们原型设计了一种基于硬件的方法,认为它可以广泛应用,尤其是在所需硬件已经普及的情况下。
工作流程如下:
1. 你的后端通过我们的API创建一个挑战。
2. 你的前端加载带有该挑战的我们的SDK。
3. SDK在桌面上显示二维码,或在移动设备上显示按钮。
4. 用户扫描二维码或点击按钮以打开我们的应用。
5. 用户通过指纹/面部识别/密码进行身份验证。
6. 应用生成硬件证明用户存在的证据。
7. 我们的后端处理并验证该证明,将验证收据转发给SDK。
8. SDK将收据返回给你的前端。
9. 你的前端使用收据来授权相应的操作。
没有用户账户,并且在验证过程中用户数据(无论敏感与否)不会被保留。
到目前为止,我们已经构建了Rust后端、原生iOS/Android应用、TypeScript/JavaScript SDK、面向用户和开发者的网站,以及一个用于快速集成的Discourse插件。
限制:
- 需要智能手机
- 用户必须安装我们的应用程序以进行验证(这是主要的摩擦点)
- 能够物理操作智能手机的机器人可能会通过验证
- 这不是一个身份验证或身份识别产品;关注的是用户的身份特征,而非个人身份
我们认为这可以补充现有的验证方法。服务可能会广泛使用验证码或Turnstile,并为特定高价值操作添加Humanmark。或者,如果用户接受应用安装要求,他们可以在所有场景中使用它。
我们希望获得关于我们尚未考虑的安全因素的反馈、适合你们技术栈的集成模式、以及可能产生影响的用例或行业。欢迎讨论并提供任何反馈。
大家好,我们是 Ishaan 和 Kartik。我们正在构建 Omnara(<a href="https://omnara.com">https://omnara.com</a>),一个“代理命令中心”,让你可以从任何地方启动和控制 Claude Code:无论是终端、网页还是移动设备,并且可以轻松切换它们。
运行 `pip install omnara && omnara`,你就可以开始一个常规的 Claude Code 会话。但你可以从我们的网页仪表板(<a href="https://omnara.com">https://omnara.com</a>)或移动应用(<a href="https://apps.apple.com/us/app/omnara-ai-command-center/id6748426727">https://apps.apple.com/us/app/omnara-ai-command-center/id674...</a>)继续同一个会话。
在这里查看演示:<a href="https://www.loom.com/share/03d30efcf8e44035af03cbfebf840c73" rel="nofollow">https://www.loom.com/share/03d30efcf8e44035af03cbfebf840c73</a>。
在 Omnara 之前,我们常常感到无奈,只能看着 Claude Code 思考和编写代码,等上 5-10 分钟才能在需要时提供输入。现在有了 Omnara,我可以启动一个 Claude Code 会话,如果需要离开我的笔记本电脑,我可以随时用手机进行回应。我曾在床上、散步时、打车时、洗衣服时,甚至在厕所上编写代码。
虽然有很多新的 Claude Code 包装器(例如 Crystal、Conductor),但没有一个能保持原生 Claude Code 终端体验,同时允许在终端外进行交互,尤其是在移动设备上。另一方面,像 Vibetunnel 或 Termius 这样的工具虽然复制了终端体验,但缺乏推送通知、干净的用户界面来回答问题或查看 git 差异,以及简单的设置。
我们希望我们的集成能够完全反映原生 Claude Code 的体验,包括终端输出、权限、通知和模式切换。Claude Code SDK 和钩子并不支持所有这些功能,因此我们制作了一个 CLI 包装器,解析位于 ~/.claude/projects 的会话文件和终端输出,以捕获用户和代理消息。我们将这些消息发送到我们的平台,在网页和移动应用中通过 SSE 实时显示。我们的 CLI 包装器监控来自 Omnara 平台和 Claude Code CLI 的输入,当用户从任一位置回应时继续执行。我们的整个后端都是开源的:<a href="https://github.com/omnara-ai/omnara" rel="nofollow">https://github.com/omnara-ai/omnara</a>。
Omnara 不仅仅适用于 Claude Code。它是一个通用框架,允许任何 AI 代理在需要输入时向人类发送消息和推送通知。例如,我一直在将其用作 n8n 工作流中的人机协作节点,用于回复电子邮件。但每个我们展示给他们的 Claude Code 用户对这一应用都感到兴奋,所以这就是我们首先推出它的原因 :)
Omnara 每月提供最多 10 个代理会话的免费使用,之后无限会话为每月 9 美元。期待你的反馈,听听你的想法和评论!
多年来,许多公司在面试中严重依赖于类似 LeetCode 的算法题。我知道我们中的许多人一直觉得这对于真实的工程技能来说是一个值得怀疑的信号,因为大多数软件工程师在日常工作中很少(如果有的话)编写新颖的算法。
现在,随着大型语言模型(LLMs)在这些问题上的表现极为出色,“能解决面试难题”和“能胜任工作”之间的差距似乎比以往任何时候都要大。实际上,今天一位合格的工程师很可能会使用 LLM 来帮助解决此类问题,因此我们在面试中测试的技能甚至不是他们在实际工作中的表现。
所以我的问题是:你认为软件工程的面试流程接下来会朝哪个方向发展?我们会朝着更真实的场景发展吗?系统设计?与 AI 进行配对编程?还是完全不同的方向?
我很想听听你们在公司中看到或尝试的趋势。
嗨,HN,我是来自Design Arena的Grace(<a href="https://www.designarena.ai">https://www.designarena.ai</a>)——我们正在建立一个众包的AI生成视觉效果基准(包括网站、图像、视频等)。我们将AI模型和构建工具进行面对面的比较,并由来自全球的真实用户进行投票。可以把它想象成AI时代的“热或不热” :)
(顺便说一下,当我们说真实用户时,我们指的是<i>真实</i>用户,因此您可能会在网站上遇到验证码。抱歉,但我们必须使用所有可用的机器人保护措施!我们只希望获得人类的评分,显而易见的原因。)
这是一个演示视频:<a href="https://www.youtube.com/watch?v=vPyEQnuVgeI" rel="nofollow">https://www.youtube.com/watch?v=vPyEQnuVgeI</a>
我们并不是一开始就打算做这个——我们其实是在开发一个AI游戏引擎。但我们发现模型在外观和感觉上表现不佳。即使输出的代码通常是功能性的,大多数视觉方面仍然缺乏让优秀图形看起来生动的灵魂。
因此,我们为自己制作了一个“这个或那个”的游戏,以找出哪些生成的输出具有最佳图形。令我们惊讶的是,这比最初的想法更令人兴奋——事实证明这是一个普遍存在的问题!一个月前我们做了一个Show HN(<a href="https://news.ycombinator.com/item?id=44542578">https://news.ycombinator.com/item?id=44542578</a>),这部分促使我们将这个基准项目作为我们的实际产品。
尽管最先进的模型可能在IMO中赢得金奖,但它们仍然在白色背景上放置白色文本。需要对什么是好的,什么不是(是的,确实存在好的设计!)进行<i>某种</i>衡量,而这显然不会来自大型语言模型(LLMs)。
我们来自工程背景(苹果和英伟达),热爱设计;我们知道自己喜欢或不喜欢某样东西,即使无法说明原因。这种“这个或那个”/“热或不热”的游戏正是为这样的领域而设计的:Design Arena的目标是让一切变得愚蠢简单,以便人类可以轻松完成:喜欢与不喜欢。这也恰好是有价值的部分,因为人类最容易做的事情,实际上是AI目前无法做到的。
自从我们的Show HN以来,我们将最初的约25个LLM模型扩展到了54个LLM模型、12个图像模型、4个视频模型、22个音频模型和22个情感编码工具(如Lovable、Bolt、v0、Firebase Studio等)。在最后一个类别中,我们惊讶地发现,像Devin这样的非专门市场推广的情感编码工具在构建者类别中表现出色,超越了专门的构建工具如Lovable、v0和Bolt。
我们的用户主要是希望快速搭建前端的开发者,或者希望更快生成设计变体的设计师。在这两种情况下,Design Arena提供了一种快速了解哪些选项优于其他选项的方法。开发者或设计师需要做出最终决定,因为没有什么能替代良好的判断。但这种格式确实可以提供很大帮助。
我们计划通过向需要量化其产品在不同版本之间改进的公司提供版本测试服务来盈利。
这是我们第一次做这样的事情!我们非常希望向大家学习,并期待您的反馈。