返回首页
一周热榜
嗨!我是一个长期潜水的HN用户。我为我的爱好——空中瑜伽,制作了一个倒计时日历。它每天解锁一个新的流动或“洗衣机”动作(可以无限循环的动作)——我们在这一年中收集了这些动作,想要与大家分享。
由于我们刚刚到达了中点(第12天),现在有12个门可以立即打开。
这可能不会在没有“AI可以为我做这个……”的想法下开始。我发现大多数代理在处理复杂的CSS时表现得非常糟糕:我把“带阴影的开门机制”这个挑战交给了Claude Opus 4.5、GPT 5.1和Gemini 3——它们都失败了很多。这是一个深入探索的开始。24是一个非常大的数字 ;) 希望你在圣诞节之前的日子里享受这个小项目,玩得开心。有任何问题都可以问我!
一些技术细节:自托管的视频(希望我的服务器不会崩溃),我使用了plyr.js,没有框架,仅仅是简单的PHP和原生JS。托管在Hetzner上,运行Yunohost,具体链接是<a href="https://github.com/YunoHost-Apps/my_webapp_ynh" rel="nofollow">https://github.com/YunoHost-Apps/my_webapp_ynh</a>。插图方面我使用了nano-banana(和时间)、recraft-vectorize、<a href="https://github.com/schuhwerk/SVG-Colorizer" rel="nofollow">https://github.com/schuhwerk/SVG-Colorizer</a>以及大量手动使用Illustrator。
一个基于所有Gmail数据训练的模型会有多强大?
<a href="https://radar.cloudflare.com/scan/2491878e-d30b-4ab0-9a5a-f3927670cbbb/summary" rel="nofollow">https://radar.cloudflare.com/scan/2491878e-d30b-4ab0-9a5a-f3...</a><p>之前的大小约为540kb,虽然这并不算太糟,但对于一个主要以文本为主的网站来说,仍然感觉有些沉重。<p>最大的收获是将Google Analytics替换为<a href="https://umami.is/" rel="nofollow">https://umami.is/</a>。<p>其他相关内容包括:<p>Cookie合规性JavaScript(85kb!)<br>Bootstrap JavaScript和CSS
我制作了一种小型实验性图像格式,称为C2PM(颜色到像素映射)。
它不是以线性顺序存储像素,而是存储:
颜色 → 该颜色出现的像素索引列表
因此,它本质上是应用于图像数据的反向索引。
这并不是为了与PNG/JPEG竞争——只是对替代表示法的一种探索。
为什么要这样做?
- 对于给定颜色的所有像素,查找时间为O(1)
- 对于像素艺术工具、调色板操作、区域遮罩等非常有趣
- 对于某些计算机视觉任务(其中“颜色 = 类”)非常有用
- 结构可自省(易于分析颜色分布)
它不是:
- 不压缩
- 不针对一般摄影进行优化
- 不适合流媒体/实时使用
- v1完全是结构性的且无损
实现:
使用C语言编写。
二进制格式:头部 + (RGB,计数,索引)。
包括编码器 + 解码器(PNG ↔ C2PM)。
MIT许可证。
仓库地址:
https://github.com/yukeshj2006/C2PM-Color-to-Pixel-Map-Image-Format-v1
<a href="https://ocean-wave-simulation.pagey.site/" rel="nofollow">https://ocean-wave-simulation.pagey.site/</a><p>使用的提示:<p>提示:创建一个单页面应用,要求如下:<p>- 名称:海洋波浪模拟<p>- 目标:展示真实的动画波浪。<p>- 功能:可以改变风速、波浪高度和光照。<p>- 用户界面应当令人放松且真实。
我在浏览成千上万张照片时感到沮丧,想找到“拿着相机的人”或“海滩上的日落”。文件名毫无用处,手动标记从未发生,而云解决方案又妨碍了隐私。
我使用NexaAI的本地视觉语言模型(Qwen3-VL)和语义嵌入构建了这个工具。它的工作原理如下:
1. VLM生成每张图像的自然语言描述(一次性处理)
2. 描述转换为384维嵌入
3. 通过余弦相似度按意义搜索(对1000张图像的搜索时间少于100毫秒)
一切都在本地运行。您的照片不会离开您的设备。没有API费用。
技术现实:CPU处理速度较慢(最初每张图像约需20-30秒),但之后搜索是即时的。对于个人收藏,JSON数据库运行良好;如果有超过1万张图像,您可能需要使用FAISS。
这是一个原型,但它有效,并解决了我面临的一个实际问题。欢迎反馈。
该项目是为NexaAI的Builder Bounty计划而构建的(设备端AI,优先考虑隐私)。
演示视频: [https://youtu.be/YVkPa-aJpEo](https://youtu.be/YVkPa-aJpEo)
Medium文章: [https://medium.com/@pankajgoyal4152/building-smart-photo-finder-ai-powered-search-that-actually-understands-your-photos-ed016b840f0f](https://medium.com/@pankajgoyal4152/building-smart-photo-finder-ai-powered-search-that-actually-understands-your-photos-ed016b840f0f)
我相信Cursor刚刚推出了两个主要功能:调试和设计。
我对IDE的需求有一定的了解,但在发布之前我无法完全表达出来。现在它已经上线,所有的一切都变得非常清晰。
在我看来,编程的未来将是实时的:调试、编码、设计等等。虽然这个想法并不新颖,但不同之处在于,现在这一切将是完全自主的。
最近,我在一个功能上工作,需要重新设计我们用Django模板和普通JavaScript构建的遗留流程的一部分。理论上,对于当前的模型来说,这不应该是一个困难的任务。但它们在生成正确的输出时遇到了困难,我认为有两个原因:
设计本质上很难仅用文本表达。
模型在生成新代码方面表现出色,但在修改大型现有代码库时却不那么理想。
老实说,我发现更新遗留用户界面的最佳工作流程是直接基于截图操作。我只需截取现有用户界面和预期更改的截图,然后要求模型编写与该设计相匹配的代码,考虑到现有设计的上下文。通过这种方式,模型能够更快地理解上下文。
有了这个新的设计功能,我想象这个整个过程会变得更快,因为我可以直接在浏览器上进行编辑,模型只需编写出预期的结果。这正是我一直想要的——一个在后台运行的自定义无头Puppeteer,实时观察我所做的事情,并帮助我进行设计。
然后就是调试。我一直更喜欢日志而不是传统的调试器。我真正想要的是在运行时像ELK解析器那样的东西,能够理解我的日志,并在系统运行时指出何时偏离预期路径。