1作者: WallyCanada7 个月前原帖
由IT管理员为IT管理员打造,sysadmin.ca是一个简洁、尊重隐私的日常工具中心,提供供应商电话准备模板、备忘单、故障跟踪器以及真实的系统管理员资源。该网站完全免费,无需注册,仅在底部有一个广告以维持运营。旨在真正提供帮助,而不仅仅是理论探讨。欢迎反馈!
2作者: eu90h7 个月前原帖
这个想法很简单:一个使用语义相似性进行查找的Python字典。假设你正在为一个AI代理提取用户偏好。在某些情况下,模型可能会输出如下内容: ``` { "preference": "Database", "value": "sqlite3" } ``` 但它(或另一个模型)可能会稍后使用一个略有不同的键请求用户偏好: ``` { "action": "get_user_preference", "preference": "Database System" } ``` 如果我们解析这些响应并将其存储在一个标准字典中,我们将错过两个偏好键“Database”和“Database System”之间的相似性,而使用SemanticDictionary时,嵌入模型会在查找之前计算与偏好键对应的嵌入向量之间的距离。 我想其他人可能也有类似的需求,所以我决定将其打包以供分发。希望你能找到一些有趣的用法!
4作者: KallDrexx7 个月前原帖
我已经花了将近9个月的时间在开发一个将.NET转换为C的转译器(<a href="https://github.com/KallDrexx/dntc">https://github.com/KallDrexx/dntc</a>),这是一个“我想知道我能否做到”的项目(最终目的是能够在C#中进行嵌入式开发,而不是C)。 在这个过程中,我试图找到合适的里程碑来测试转译器。当我了解到Linux的eBPF时,我意识到这成为了一个有趣的用例,并创建了DotnetEbpf原型。 这个原型允许您完全使用C#编写Linux内核侧的eBPF应用程序。尽管由于一些限制,它可能看起来限制了C#的实用性,但它确实提供了比C更好的语法,以及单元测试的能力(因为每个本地的eBPF函数可以用C#的本地代码填充,而在转译时会被忽略,此外还具备通用功能)。 未来,我希望能够完善C#内核侧和C#用户空间侧之间数据结构的正确连接能力(以及从C#用户空间应用程序安装eBPF内核应用程序的能力),这将使得能够完全使用C#编写全栈的eBPF安全软件。
17作者: matthewolfe7 个月前原帖
TokenDagger 是 OpenAI 的 Tiktoken(Llama 3、Mistral、GPT-3.* 等背后的分词器)的即插即用替代品。它使用 C++ 17 编写,并配有轻量级的 Python 绑定,保持完全相同的 BPE 词汇/特殊标记规则,专注于原始速度。 我正在通过从基本原理重新实现整个堆栈来学习大型语言模型的内部原理。对 TikToken 的 Python/Rust 实现进行的性能分析显示,很多时间都花在了正则表达式匹配上。我的性能提升主要来源于:a) 使用更快的 JIT 编译正则表达式引擎;b) 简化算法,完全不使用正则表达式匹配特殊标记。 基准测试代码已包含在内。显著的结果显示: - 在单线程上,代码样本的分词速度提高了 4 倍。 - 在对 1GB 自然语言文本文件进行测试时,吞吐量提高了 2-3 倍。