返回首页
最新
我最近在一家大型科技公司工作了十年后被裁员。现在,我面临着一个严峻的现实,那就是尝试解决 LeetCode 中等/困难的问题(在我工作期间,我从未能做到这一点)。这里有没有人处于类似的情况或者曾经经历过?如果有,你是如何保持自己每天解决多个问题的动力,尤其是知道自己实际上在工作中不会遇到这样的题目?
我想为一个客户开发一个自主型企业应用程序,目前在选择框架上有些犹豫。他们使用的是 Ruby on Rails,这是否限制了我的选择?<p>附言:我所有的研究都指向 LangChain。
大家好,我刚刚发布了一个开源的负载测试工具,专门用于大型语言模型(LLMs):
<p><a href="https://github.com/twerkmeister/tokenflood" rel="nofollow">https://github.com/twerkmeister/tokenflood</a></p>
=== <i>它是什么,它解决了什么问题?</i> ===
<p>Tokenflood 是一个针对指令调优的 LLM 的负载测试工具,可以模拟任意的 LLM 负载,包括提示、前缀、输出长度和每秒请求数。您可以配置负载测试所需的参数,而无需先收集不同负载类型的提示数据,这样就可以直接开始测试。它还可以让您在花费时间和精力实施之前,评估潜在提示参数变化的延迟影响。</p>
我相信它对于开发对延迟敏感的 LLM 应用程序非常有用,
* 负载测试自托管的 LLM 模型设置
* 在实施更改之前评估提示参数变化的延迟收益
* 在将流量发送到托管的 LLM 服务之前,评估延迟及其日内变化</p>
=== <i>我为什么要构建它?</i> ===
<p>在过去的一年里,我的部分工作是帮助客户满足他们在 LLM 方面的延迟、吞吐量和成本目标(有人需要 PTUs 吗?)。这个过程涉及对云服务提供商、硬件、推理软件、模型、配置和提示变化做出大量选择。在此期间,我发现自己不断使用一系列临时脚本进行类似的测试。最终我有了一些空闲时间,想把这些功能整合到一个工具中。</p>
=== <i>我在寻找什么?</i> ===
<p>我分享这个工具有三个原因:希望它能简化其他人在对延迟敏感的 LLM 应用中的工作、从反馈中学习和改进,以及寻找新的项目进行合作。</p>
所以请在 GitHub 上查看一下(<a href="https://github.com/twerkmeister/tokenflood" rel="nofollow">https://github.com/twerkmeister/tokenflood</a>),留下评论,并通过 thomas@werkmeister.me 或在 LinkedIn 上(<a href="https://www.linkedin.com/in/twerkmeister/" rel="nofollow">https://www.linkedin.com/in/twerkmeister/</a>)联系我以进行专业咨询。</p>
=== 图片 ===
<p>命令行界面图像:<a href="https://github.com/twerkmeister/tokenflood/blob/main/images/cli.png?raw=true" rel="nofollow">https://github.com/twerkmeister/tokenflood/blob/main/images/cli.png?raw=true</a></p>
<p>结果图像:<a href="https://github.com/twerkmeister/tokenflood/blob/main/images/self-hosted_shorter_output_latency_percentiles.png?raw=true" rel="nofollow">https://github.com/twerkmeister/tokenflood/blob/main/images/self-hosted_shorter_output_latency_percentiles.png?raw=true</a></p>