返回首页
最新
这部分内容属于Balladic,这是我和我的团队在过去一年中自主开发的项目。如果你感兴趣,可以去看看,但我认为你们大多数人会对即时生成叙述用户界面更感兴趣。这更像是一个概念性的概述,而不是技术性的细节,如果你对幕后工作感兴趣,随时可以问,我会很乐意分享。
如同名字“Balladic”所暗示的,我们每晚为所有用户生成一个新的叙述页面,并为每个特定的叙事项目生成专属的叙述。这个展示的形式类似于书籍章节——今天的热点是什么,过去一周的情况如何,等等。这个过程由多个开放权重模型之间的反复调用驱动,同时结合一些经典的算法解析、压缩等技术(因为令牌的成本很高)。大致流程如下:
1. 数据合成:解析变更日志、评论(当然是匿名的)、各种活动。对数据进行拆分、变形、拉伸——直到我们能够合成出干净的信息提炼,实质上是提取出潜台词。
2. 事实核查:将数据交给具有MCP访问权限的事实核查员。这个人会审查所有可能被理解为事实的陈述,并使用mcp.balladic.com进行探查和查询。然后将其裁定结果附加到原始合成文档中。
3. 编纂:最终文档包括事实核查附录,经过进一步处理后,传递给我们的用户界面渲染器。这是我们对@json-render的独特改进(顺便说一句,@json-render做得非常好)。
在幕后,我们有一个定制的记忆库,采用了一些巧妙的技巧来防止幻觉和不良增长。如果有人感兴趣,我很乐意进一步解释这部分内容。
所有的LLM工作都在欧洲的GPU上运行,我们使用的是Mistral和一些中国的开放权重模型。这里展示了一个没有认证的演示,希望能激发一些灵感。