2作者: bilalba大约 1 个月前原帖
我一直想尝试<500M参数的语言模型,但在任何地方都找不到可以试用的API,因此我搭建了这个托管在Cloudflare上的静态网站,提供模型权重,并构建了一个使用WebGPU的推理运行时,可以直接在浏览器中进行推理。 这些模型在多轮对话中用途有限,但看到在<250MB的模型中可以实现的功能仍然很有趣。 我之前尝试过使用ONNX版本,但在与语言模型结合使用时遇到了太多问题,且TPS表现并不令人满意。受到svenflow/webgpu-gemma的启发,我让我的codex和claude负责编写WGSL,以便为这些模型的GGUF版本运行推理。 一旦你加载了这个网站和模型,它应该也能离线加载,直到你的浏览器将模型从缓存中驱逐。