返回首页
最新
嗨,HN,我是作者。
我创建了CommerceTXT,因为我厌倦了从HTML中提取定价和库存数据的脆弱性。目前,AI代理在解析一个产品页面时大约浪费了8000个token,却常常产生幻觉,错误地给出价格或忽略“缺货”的事实。
CommerceTXT是一种严格的只读文本协议(CC0公共领域),旨在为代理提供确定性的真实数据。可以将其视为`robots.txt` + `llms.txt`,但专门为交易结构化。
v1.0的关键技术决策:
1. *分形架构:* 根目录 -> 类别 -> 产品文件。代理只获取所需的数据(节省带宽/ token)。
2. *严格只读:* v1.0故意排除了交易/操作,以避免安全隐患。它纯粹是上下文。
3. *Token效率:* 一个典型的产品定义大约为380个token,而HTML等效物则为约8500个token。
4. *反幻觉:* 包含如@INVENTORY(带时间戳)和@REVIEWS(带验证来源)的指令。
规范已上线并开放。我非常希望能听到您对指令结构的反馈,尤其是我们正在探索的“信任与验证”概念。
规范链接: [https://github.com/commercetxt/commercetxt](https://github.com/commercetxt/commercetxt)
网站链接: [https://commercetxt.org](https://commercetxt.org)
我开发了VideoReview,以减少团队成员在游戏过场动画和小品上的审查负担。<p>它允许协作者留下基于时间的评论,直接在视频帧上绘图,并在一个轻量级、类似社交网络的界面中讨论反馈。<p>集成功能包括JIRA(从评论中创建任务)和Slack(分享评论)。<p>我非常希望能收到那些审查游戏或动画素材的人的可用性反馈!
你好,HN!我们是来自新加坡国立大学(NUS)的一个小团队(本科生 + 博士生)。PaperDebugger最初是一个研究项目,后来发展成为一个开源工具,直接集成到Overleaf中,作为学术写作助手。它提供对LaTeX的调试支持、审稿风格的反馈以及针对性的修改建议,无需离开编辑器,非常适合已经在Overleaf上撰写和协作的用户。
在过去的一周里,我们的小型测试版获得了比预期更多的关注。虽然它还远未完美,但由于已有用户在尝试,我们决定更广泛地分享,并优先考虑稳定性、可靠性以及早于计划收集反馈。
无需注册:只需安装Chrome扩展,它会立即附加到你的Overleaf项目中。你可以高亮任何部分并获得具体建议、问题报告或多步骤的修改建议。在后台,它读取你的项目结构,并由我们自定义的基于MCP的协调引擎驱动,模拟研究 → 批评 → 修改的工作流程,而不是单一的聊天提示。
试试吧:
Chrome扩展(Overleaf集成):
<a href="https://chromewebstore.google.com/detail/paperdebugger/dfkedikhakpapbfcnbpmfhpklndgiaog" rel="nofollow">https://chromewebstore.google.com/detail/paperdebugger/dfked...</a>
着陆页(演示 + 概述):
<a href="https://www.paperdebugger.com/" rel="nofollow">https://www.paperdebugger.com/</a>
我们希望了解的内容:
• Overleaf嵌入式工作流程是否真的比复制/粘贴LLM编辑更有用
• 关于Overleaf编辑器内的用户体验和交互的看法
• 任何顾虑,例如关于隐私或扩展行为的担忧(我们确实有发布政策)
• 有助于会议/期刊提交的功能请求(我们目前正在开发格式化工具和引用验证器)
对于对系统的技术细节和研究背景感兴趣的读者,这里有一篇论文的链接:<a href="https://arxiv.org/abs/2512.02589" rel="nofollow">https://arxiv.org/abs/2512.02589</a>
欢迎提问关于架构、MCP设计、提示或其他任何内容的问题。
我和朋友(@finnvoid)讨论了如何让他们在日本生活期间更容易练习平假名和片假名的阅读。在与Gemini进行了一些快速的基本创意构思后,他们将这个想法付诸实践,开发了“Jordle”,这是一款类似于Wordle的工具,旨在帮助他们(以及你)学习振假名。
游戏玩法很简单,你的目标是将显示的字符音译成罗马字(罗马化)。你可以选择两种字符集(平假名和片假名)或两者都练习。
数据存储在设备本地,因此运行速度很快,并且在技术上可以离线使用。
如果大家有问题或评论,我们可能会在评论区待一会儿!
嗨,HN,我是Jacek,这个项目(Lustra)的创始人。
问题:95%的立法内容被忽视,因为原始法律文本难以阅读。媒体报道更倾向于引发愤怒,而非提供深入见解。
解决方案:我建立了一个数字公共基础设施,具体包括:
1. 数据处理与清洗:解析来自美国和波兰的原始法案(PDF/XML),利用大型语言模型(Vertex AI,温度=0,严格JSON)去除政治色彩。
2. 公民算法:主要信息流不是由编辑委员会排序,而是根据用户投票(“影子议会”)进行排序。社区关注的内容会优先显示。
3. 公民项目:一个公民立法的孵化器。用户提交草案(如我们的《人类保护法案》),这些草案经过AI评分审核,并与政府法案并排展示,视觉上保持一致。
技术栈:
前端:Flutter(Web和移动单体仓库),
后端:Firebase + Google Cloud Run,
AI:Vertex AI(Gemini 2.5 Flash),
许可证:PolyForm非商业 — 源代码可供检查、学习和非商业公民使用。商业使用需要单独协议。
我在寻找贡献者。我已经上线了美国和波兰,欧盟、英国、法国、德国正在筹备中,部分功能可用。我需要帮助构建其他议会的数据适配器(核心逻辑与国家无关)。如果你想帮助审核代码或添加国家,请查看仓库。目标是尽可能利用现有资金完成数据库的建设。
在线应用: [https://lustra.news](https://lustra.news)
代码仓库: [https://github.com/fokdelafons/lustra](https://github.com/fokdelafons/lustra)
开发日志: [https://lustrainitiative.substack.com](https://lustrainitiative.substack.com)
嘿,HN,我是作者。
我创建Misata是因为现有的工具(Faker,Mimesis)在生成随机行方面表现出色,但在关系或时间完整性方面却很糟糕。我需要为一个仪表板生成数据,其中“工时表”必须在“项目开始日期”之后,并且我希望通过自然语言来定义这些规则。
它是如何工作的:
LLM层:使用Groq/Llama-3.3将“故事”解析为JSON模式约束配置。
模拟层:使用向量化的NumPy(无循环)生成数据。它构建一个有向无环图(DAG)来确保父行在子行之前存在(引用完整性)。
性能:在我的M1 Air上生成约25万行/秒。
目前处于早期alpha阶段。“图形逆向工程”(描述一个图表 -> 获取数据)是实验性的,但对于简单曲线有效。
可以通过以下命令安装:pip install misata
我非常希望能得到关于simulator.py架构的反馈——我目前将数据保存在内存中(使用Pandas),这在大约1000万行时会达到瓶颈。我在考虑将数据迁移到DuckDB以进行外部生成。你有什么想法吗?
我们正在构建 Largemem(<a href="https://largemem.com" rel="nofollow">https://largemem.com</a>),这是一个共享知识库,供各个团队上传和维护一套共同的文档(PDF、扫描件、音频),并以对话的方式进行查询。
每个团队都有自己的持久知识库。我们将内容解析为多个片段,提取实体,并结合向量搜索与轻量级知识图谱,使得答案能够综合多个文档的信息以及团队共享的上下文,而不仅仅是提取孤立的片段。
我们非常希望听到您的反馈!