3作者: kuberwastaken8 个月前原帖
AI大型语言模型从图像中获取的最大上下文之一是其元数据,但这一点被极大地低估了。虽然PNG和JPEG格式都提供元数据,但在分享时很容易被剥离,而且对于基于AI的工作流程来说,它们的元数据非常有限,提供的有用条目也很少。此外,这些格式已经相当古老(1995年和1992年),是时候为我们的AI时代进行升级了。 请认识MEOW(元数据编码优化网页文件)——一种开源图像文件格式,基本上可以看作是增强版的PNG,我也喜欢称之为完美的文件格式。 MEOW不是将元数据与图像一起存储,而是使用最低有效位(LSB)隐写术直接将其编码到图像像素中——将数据隐藏在你肉眼无法察觉的最低有效位中,这样也不会显著增加图像的大小。因此,如果你使用任何形式的无损压缩,它仍然会保留。 我注意到,大多数“创新”的图像文件格式由于缺乏采用而消亡,但MEOW与PNG完全兼容。你可以直接将一个.MEOW文件重命名为.PNG,并在普通图像查看器中打开。 以下是每个像素中嵌入的内容: - 边缘检测图 - 预计算的边界,以便AI不浪费时间去判断物体的起止位置。 - 纹理分析数据 - 表面图案、粗糙度、材料属性等已被映射。 - 复杂度评分 - 告诉AI模型不同区域需要多少处理能力。 - 注意力权重图 - 突出显示模型应集中计算的区域(如面孔、文本、重要物体)。 - 物体关系数据 - 检测到的元素之间的空间连接。 - 未来扩展空间 - 为AI想要添加的内容保留的位(或用于训练LORA或标记的注释)。 当然,所有这些都是可编辑和可配置的,并且在压缩、分享,甚至截图和重发的过程中都能保留 :p 当你将任何图像格式转换为.meow时,它会自动生成大多数AI特定的特征和数据,从图像中提取的信息,使其工作效果更佳。 期待大家对这个项目的想法、建议或创意 :)
3作者: bryanrasmussen8 个月前原帖
我在编写聊天机器人的过程中感到失望。我希望能够实现以下功能:<p>我写一个文件,在文件中注释我期望代码在此时此刻应该执行的内容。当我运行代理以构建或编译这些描述时,<p>它当然应该提供我所列出的功能。如果它觉得有必要创建我未指定的其他代码部分,它应该注释说明为什么做出这个决定,以及它所生成的代码的作用。<p>从本质上讲,我希望有一个代理,能够让我以一种文献编程的方式来处理非文献编程的工作流程。https://en.wikipedia.org/wiki/Literate_programming<p>如果你有一些想法可以帮助我实现这个目标,请分享。如果你认为永远不可能产生这样的东西,也请告诉我(尽管我认为这是可行的)。<p>请注意,我不想要一个在我输入时进行交互的机器人,我想要一个人工智能构建步骤。为什么?因为我打字非常快且没有错误,早年我曾做过数据录入工作。交互式机器人让我变慢,而且大多数时候输入效果不佳。<p>我敢打赌这可能是可行的,很多人可能会想,为什么这个家伙不直接做X或Y,但问题在于——到目前为止,我所经历的都是不令人满意的交互式机器人,而在研究这个问题时,世界上最受欢迎的搜索引擎也让我感到失望,所以希望这里的人能解释一下如何才能实现我想要的。
3作者: jacobhm988 个月前原帖
看看我的语义缓存项目吧!<p>它旨在轻松集成到现有的LLM工作流程中,您可以将其用作代理,缓存会将未命中的请求转发到指定的上游,而不进行修改,并自动用响应更新缓存。<p>您还可以使用提供的Python库将其用作旁路缓存。<p>它通过计算输入查询的嵌入向量,并将其与已见的查询+响应对进行匹配,使用的是向量存储。<p>所有操作都在内存中进行,因此速度非常快 :)
5作者: sobinsamuel8 个月前原帖
我开发了一个工具,可以模拟9种不同的残疾,让开发者体验到13亿人每天在网上面临的挑战。仅仅是ADHD(注意力缺陷多动障碍)的模拟就会改变你设计界面的方式。这个工具是免费的,试用只需2分钟。
2作者: romz8 个月前原帖
嗨,HN, 我们为一个工具搭建了一个小型演示平台,该工具能够动态地对非结构化文本数据(如支持票、聊天记录或通话笔记等)进行分段,并随着时间的推移自动发现维度和段落。 我们在为人工智能工作流进行分析时开始了这个项目,并意识到其中存在一些有趣的工程挑战,比如动态维度发现、合并以及数据处理管道的可扩展性。 请在这里试用: [https://www.correl8.ai/playground](https://www.correl8.ai/playground) 我们非常希望能听到您对核心价值的反馈,以及您是否有任何改进或添加的建议? 谢谢! 罗曼·齐默