77作者: dipampaul179 个月前原帖
我发现,在大语言模型(LLM)推理中,KV缓存中的键(keys)和值(values)对量化的敏感性差异很大。为了保持质量,键需要比值更高的精度。 我对 llama.cpp 进行了修改,以便在 Apple Silicon 上为键和值启用不同的位宽。结果令人惊讶: - K8V4(8位键,4位值):内存减少59%,但困惑度损失仅为0.86% - K4V8(4位键,8位值):内存减少59%,但困惑度损失为6.06% - 这两种配置使用相同数量的位,但 K8V4 在质量上优于 K4V8 7倍 这意味着你可以在同一台 Mac 上运行具有 2-3 倍更长上下文的 LLM。内存使用量与序列长度成正比,因此随着上下文的增长,节省的内存会不断累积。 实现过程相对简单: 1. 在 llama.cpp 中添加了 --kvq-key 和 --kvq-val 标志 2. 将现有的量化逻辑分别应用于 K 和 V 张量 3. 在不同的上下文长度下通过困惑度指标进行验证 4. 使用 Metal 进行加速(使用 -mlong-calls 标志以避免向量化问题) 在一台运行 TinyLlama 的 M4 MacBook Pro 上进行了基准测试,使用 8K 上下文窗口。与 Metal/MPS 兼容,并针对 Apple Silicon 进行了优化。 GitHub: [https://github.com/dipampaul17/KVSplit](https://github.com/dipampaul17/KVSplit)
7作者: betrayawayed5559 个月前原帖
我们最近发现,我们唯一的销售员工——一位远程工作的、备受信任的团队成员——在过去16个月中秘密与竞争对手合作,可能更久,甚至可能涵盖了他们在我们公司的整个任期。这一切发生在他们与我们签订了包含竞业禁止条款的全职雇佣协议期间(该条款适用于在职期间及离职后)。<p>我们是一家小型的加拿大B2B SaaS公司(员工人数少于20人),在一个省注册,而这名员工则在另一个省。他们在代表竞争对手参加贸易展时,声称是以我们的名义出席,或者以生病为由请假。在我们的工作时间内,他们为竞争对手处理了来电线索,可能还利用了我们的ZoomInfo订阅为自己谋利,并且有能力在我们不知情的情况下转移线索。事情远不止于此。<p>我们之间的关系本来很好——我们喜欢他们,信任他们,认为我们有着稳固的合作关系。唯一的担忧是与业绩相关的,我们认为这只是市场环境造成的。<p>当我们准备解雇他们时,他们得知了消息,愤怒地辞职,并声称遭受骚扰和建设性解雇。<p>各位创始人:你们会怎么做?继续前进?进一步调查?和解?升级处理?你们是否遇到过信任的员工暗中为竞争对手工作?