1作者: kevin-20252 个月前原帖
我构建这个工具是为了回答关于大型语言模型(LLM)部署的“假设”问题,而无需启动昂贵的基础设施。 该工具模拟了推理物理学——延迟、带宽饱和和PCIe瓶颈,适用于像DeepSeek-V3(671B)、Mixtral 8x7B、Qwen2.5-MoE和Grok-1这样的超大规模混合专家(MoE)模型。 主要功能: - 独立的预填充与解码并行配置(TP/PP/SP/DP) - 硬件建模:H100、B200、A100、NVLink拓扑,IB与RoCE - 优化:分页KV缓存、双管道、FP8/INT4量化 - 实验性:内存池(TPP,分层存储)和近内存计算——将冷专家和冷/温KV缓存卸载到系统RAM,节点共享或全局共享内存池 实时演示: [https://llm-inference-performance-calculator-1066033662468.us-west1.run.app/](https://llm-inference-performance-calculator-1066033662468.us-west1.run.app/) 该工具使用React、TypeScript、Tailwind和Vite构建。 免责声明:我已经校准了数学模型,但它们并不完美。欢迎反馈和拉取请求(PR)。
1作者: rezliant2 个月前原帖
你的高管团队明白这一点。他们已经批准了预算,在董事会会议上提到了安全问题,也理解其中的风险。你不再需要在高层争取认可了。 但当你看看实际发生的情况时,情况却不容乐观。市场营销团队正在共享社交媒体账户的凭证。销售团队对多因素认证(MFA)表示反对,因为这会增加他们登录过程的时间。开发人员因为觉得这样更快捷而将API密钥存储在公共代码库中。远程员工在不安全的网络上工作,丝毫不在意。 高管们的承诺是存在的,但公司整体的行为却并非如此。而正是这种差距导致了安全漏洞的发生。 这就是让安全领导者夜不能寐的挑战。你得到了来自上层的授权,但将其转化为成千上万的日常决策,这些决策是由优先事项截然不同的人做出的,这完全是另一种游戏。
1作者: gok22 个月前原帖
你好,大家好, 我是Colonist的联合创始人,这是一个在移动端和桌面上都可以玩的在线卡坦风格游戏。随着时间的推移,玩家群体和社区已经发展到数百万,这仍然让人感到非常惊讶。 我们不断在构建新的活动、地图和模式,但这需要大量的时间和精力。 重点是Shuffle。 Shuffle是一个简单的匹配队列,每周轮换一组地图、模式和规则集。我们使用它来: - 了解玩家真正喜欢哪些地图/模式 - 每周提供不同的配置 - 在这些新模式进入主休闲或排名队列之前进行测试 我们希望利用Shuffle来测试一些内容,比如: - 非标准的资源分配/交易比例 - 强盗/发展卡的变体 - 替代胜利条件 - 完全新的游戏模式 在后台,它基本上是一个小型实验引擎,建立在匹配系统之上: - 每个Shuffle选项被建模为一个子配置(地图、规则、玩家数量),并存储在数据库中 - 一个定期任务使用近期偏重的加权随机和冷却时间选择下一个配置 - 匹配记录的指标以该配置为键,以便我们可以在之后比较不同的变体 我喜欢这个将测试框架与“实验引擎”结合的想法,觉得分享内部的想法可能会很有趣。 我也很想知道: - 你们认为这种系统还有哪些其他的创新用途? - 在这样的系统中,你希望测试哪些机制? 欢迎提出技术或产品方面的问题,我很乐意分享更多细节。
3作者: habedi02 个月前原帖
大家好, 我制作了一个早期版本的ZigFormer,这是一个用Zig实现的小型语言模型(LLM),不依赖于像PyTorch或JAX这样的外部机器学习框架。ZigFormer的设计灵感来源于教科书中的语言模型(例如OpenAI的GPT-2),可以作为Zig库使用,也可以作为独立应用来训练模型并与之对话。 这个项目主要是出于教育目的。我在这里分享它,希望其他人觉得有趣或有用。 项目链接: [https://github.com/CogitatorTech/zigformer](https://github.com/CogitatorTech/zigformer)