返回首页

24小时热榜

1作者: ditegashi大约 12 小时前原帖
大家好,我最近几个月一直在开发一个情感营销平台,作为我的主要副项目。今天进行一个(非常)软启动,主要是因为我想用它来挑战我们对AI生成内容的思考(有些人称之为SLOP——请耐心听我讲)。 **PostKing的工作原理:** 我会创建一个你现有内容的统计模型——博客、社交媒体帖子、大学作业,任何你写过的东西。 它学习你的品牌声音、语调和定位——不仅仅是表面上的写作风格,而是你思考的实际方式。 生成的内容在任何渠道上都听起来像你,而不是普通的AI生成内容。 我从你的内容中提取这些特征: **风格特征:** - 功能词频率(the, a, and等)——标准化比率 - 词汇多样性:马修斯(类型-标记)、尤尔的K、辛普森指数 - 签名短语(TF-IDF): - 前10个二元组 - 前10个三元组 - 前15个独特词(长度 > 3) **情感分析:** - 总体得分 - 情感标记:快乐、悲伤、愤怒、恐惧、惊讶(标准化) - 情感变化(句子级偏差) **模式:** - 搭配:频繁的双词组合(≥2次出现,前20名) - 重复短语:三词短语(≥2次出现,长度 > 10,前10名) - 结构模板:问题、感叹句、列表、引用 - 修辞: - 隐喻密度(每句中的like/as/is指示词) - 头韵频率(每句中相邻同字母开头的词) - 排比实例(每句中重复的结构) - 代指实例(每句中重复的句子开头) 这是一个简单的模型,但我希望它比大多数AI写作工具使用的“提示和祈祷”方法更好。从根本上说,我觉得大多数AI内容工具更注重数量而非真实性,这导致了恶性竞争。这种不对齐的情况促使我去开发这个工具。 由于这是一个软启动,语音训练算法仍在不断完善。你不会得到糟糕的输出,但你的输入内容越多样化,它捕捉细微差别的能力就越强。与此同时,我已经开放了免费的alpha账户,如果有人想用自己的品牌来测试。 如果你使用应用中的反馈链接,我很乐意为你提供更多的积分。 编辑:如果大家感兴趣,我很乐意分享更多关于语音保留的技术方法——这不仅仅是微调,还有很多上下文层面的工作。
1作者: parsabg大约 13 小时前原帖
嘿,HN, 我们是Amin和Parsa,兴奋地向大家介绍DataKit,这是一个完全基于浏览器的数据分析平台,让您可以直接在浏览器标签页中处理大型数据集,无需服务器、无需设置,数据也不会离开您的设备。 - GitHub: [https://github.com/datakitpage/datakit](https://github.com/datakitpage/datakit) - 在线演示: [https://datakit.page](https://datakit.page) DataKit使用编译为WebAssembly的DuckDB,在客户端完全处理多达数十GB的数据集(CSV、Parquet、JSON、Excel)。您的数据保留在本地浏览器中,默认情况下不会上传到任何地方。 我们对必须在需要上传敏感数据的云工具和繁琐的本地设置之间做出选择感到沮丧,这些本地设置安装和维护起来都很麻烦。我们希望有一个只需在浏览器标签页中就能正常工作的解决方案,同时又具备真正的分析能力。 它的一些核心功能包括: - 客户端处理大型文件(测试至约20GB),无需后端 - 完整的SQL接口,由DuckDB-WASM提供支持 - 通过Pyodide实现的数据科学工作流的Python笔记本 - 通过代理与远程数据源(Postgres、MotherDuck、S3)的可选连接 - 一个仅能看到模式和元数据的AI助手——从不接触原始数据 许可:DataKit采用AGPL许可,企业使用可提供商业许可证。 在过去几个月中,我们将DataKit作为一个副项目进行开发,非常希望得到您的反馈: - 您遇到的性能瓶颈 - 您工作流中需要的功能 - 对全客户端架构与混合方法的看法 感谢您关注我们,我们很乐意回答任何问题。 — Amin & Parsa