2作者: ash_at_hny4 个月前原帖
我一直在探索扩散模型,这种模型已经改变了图像和视频生成,如何应用于文本生成。离散扩散模型背后的数学一开始可能会让人感到有些畏惧,因此我整理了一个带注释的 Jupyter Notebook,详细讲解了理论,并构建了一个基于字符级的离散扩散 GPT,该模型是从 Andrej Karpathy 的 baby GPT 进行改编的。与其自回归地生成文本(从左到右),该模型学习并行去噪损坏的文本序列。 这个 Notebook 涵盖了数学框架、离散标记的噪声过程,以及一个基于莎士比亚文本训练的有效实现。 GitHub: [https://github.com/ash80/diffusion-gpt](https://github.com/ash80/diffusion-gpt) 在 Google Colab 中打开: [https://colab.research.google.com/github/ash80/diffusion-gpt/blob/master/The_Annotated_Discrete_Diffusion_Models.ipynb](https://colab.research.google.com/github/ash80/diffusion-gpt/blob/master/The_Annotated_Discrete_Diffusion_Models.ipynb) 欢迎提供反馈和建议。
1作者: Tananon4 个月前原帖
嗨,HN!我刚刚开源了 Pyversity,这是一个轻量级的库,用于多样化检索结果。大多数检索系统只优化相关性,这通常会导致前 k 个结果几乎完全相同。Pyversity 高效地对结果进行重新排序,以平衡相关性和多样性,呈现出仍然相关但不那么冗余的项目。 主要特点: - 统一 API:一个函数(diversify)支持几种知名策略:MMR、MSD、DPP 和 COVER(未来会增加更多)。 - 轻量级:唯一的依赖是 NumPy,使得包体积小且易于安装。 - 快速:所有支持的策略都有高效的实现;在毫秒级别内多样化结果。 使用交叉编码器进行重新排序目前非常流行,但也非常昂贵。根据我的经验,通常可以通过更简单、更快速的方法来改善检索结果,比如这个包中实现的方法。这有助于检索、推荐和 RAG 系统呈现更丰富、更具信息量的结果,确保每个新项目都能添加新信息。 代码和文档:github.com/pringled/pyversity 如果您有任何反馈或对其他多样化策略的建议,请告诉我!
1作者: _1tan4 个月前原帖
我建立了一个微型预测市场,完全依赖于 GitHub Issues,没有外部数据库。每个市场都是关于仓库工作的具体问题,例如:“问题 #123 会在 2025 年 11 月 15 日之前关闭吗?”合作者可以购买 YES/NO 股份来表达他们的看法,价格(0 - 1)反映了团队的集体预测。这有助于规划、优先级排序以及使期望变得透明——而不涉及真实货币。 在技术实现方面:在问题中嵌入了签名的 JSON 快照(市场和账本),使用 LMSR 定价,基于序列的乐观并发控制并支持重试,以及仅限合作者的交易。 我还没有为该仓库部署公共实例——计划在整合初步反馈后进行。仓库链接: [https://github.com/philippnagel/gantt](https://github.com/philippnagel/gantt) 我希望能收到关于治理(每个用户的上限、利益冲突)、哪些问题最有用(截止日期、PR 合并、发布)以及基于评论的交易用户体验的反馈。
6作者: alpaca1214 个月前原帖
我一直喜欢在工作或入睡时有背景噪音,但我发现大多数“白噪音”或环境音应用要么需要付费,要么充满广告,或者试图为基本功能推销订阅服务。 因此,我制作了Ambi,这是一款小巧的iOS应用,界面简洁,提供一系列免费可用的环境声音——如雨声、海浪声、风声、鸟鸣等。你可以混合这些声音,调整音量,随意播放整晚或在工作时使用。所有功能均可离线使用,没有隐藏的收费。 这是我首先为自己开发的,但我想其他人也可能会觉得它有用。欢迎反馈、报告bug和提出建议。 <a href="https:&#x2F;&#x2F;apps.apple.com&#x2F;app&#x2F;ambi-white-noise-sleep-sounds&#x2F;id6753184615">https:&#x2F;&#x2F;apps.apple.com&#x2F;app&#x2F;ambi-white-noise-sleep-sounds&#x2F;id6...</a>
3作者: trapani4 个月前原帖
我开发了Hyprvoice,这是一个小工具,可以让你在Wayland上通过语音输入文本——不需要X11,也不需要复杂的桥接。只需按下一个键,开始说话,你的文字就会出现在光标所在的位置。 这个工具是用Go语言编写的,使用PipeWire进行音频处理,并直接与合成器进行通信。工作流程非常简单: 按下键 → 开始录音 再次按下 → 停止并注入文本 通知会显示录音/转录状态,并且它支持多个后端——目前使用OpenAI Whisper,whisper.cpp(本地/离线)正在开发中。 所有操作都通过一个轻量级的守护进程运行,使用Unix套接字进行进程间通信。文本注入使用wl-clipboard和wtype,并具有剪贴板恢复的后备方案。 安装(Arch/AUR): ```bash yay -S hyprvoice-bin systemctl --user enable --now hyprvoice.service ``` 然后在Hyprland中添加类似以下内容: ```plaintext bind = SUPER, R, exec, hyprvoice toggle ``` 代码库: [https://github.com/leonardotrapani/hyprvoice](https://github.com/leonardotrapani/hyprvoice) 目前处于测试阶段,但已完全可用。我非常欢迎反馈,特别是来自全职使用Wayland或维护合成器的用户。
2作者: FpUser4 个月前原帖
不确定这是否与人工智能有关(那个插件是一个独立的功能),但这感觉有些不可思议。似乎在很多情况下,它能够在我开始写一个函数时就知道我想写什么,并自动填充函数体。这可能比人工智能本身更能为我节省时间。
3作者: Imustaskforhelp4 个月前原帖
我在这里讨论这个问题大约是7-8天前,但我仍然不知道原因是什么。我思考了几个小时,认为我终于理解了原因,但似乎我唯一知道的就是我什么都不知道。 我的问题很简单。为什么人们对自由和开放源代码软件(FOSS)缺乏了解,以及如何真正改变这种状况。 我考虑过传播FOSS信息的最佳方式,似乎最有效的方法是倡导像F-Droid、Linux Mint、Flatpak这样的工具,让事情变得简单到没有理由不去使用它们。 然而,我又觉得人们之所以仍然不感兴趣,是因为这变得<i>太</i>无聊了。 如果我的所有行动都被追踪,我真的掌控着自己吗?我不确定。人们难道不知道这一点吗? 我想提高对开放源代码软件(OSS)的认识,因为这是我热衷的事情。然而,我似乎不知道该如何做。我觉得在谈论这些问题时我的声音被听见,有时说服人们使用Signal是如此简单,但他们仍然没有使用。这是一种复杂的情感。 我感觉我的一代人也给我留下了很多困惑,我们甚至停止了质疑,我们都被追踪我们的算法所极化。 在这样一个极化的世界里,我觉得使用开源软件可以帮助我们慢慢提高对它的认识,从而使我们能够摆脱极端隐私侵犯和引发愤怒的算法,朝向更好的方向发展,这样我们就可以减轻我们的感知,停止那种“这就是一切的终结,一切都无所谓”的虚无主义或“谁在乎”这种想法。 有时我觉得我的想法毫无意义,也许你会说像YouTube这样的东西是为我这样的想法提供了一个平台,但其实并不是。我不想为自己创造任何传说,我只想告诉人们一些简单的FOSS事情,比如F-Droid,并发表我的看法,这样我就可以去关注或帮助其他在开源领域更紧迫的问题。 人们也觉得自己有权获得高质量的开源软件,如果这是你的期望,那么请善待开发者,感谢他们并礼貌地询问解决方案,或者加入他们的社区并在那里友好地询问,或者也许自己捐款或贡献。我看到一些人觉得自己有权利,这让我感到沮丧。 我感谢每一位开源开发者,这对我来说是如此优雅,我们可以有分支和许多其他东西,彼此学习,有时这让人耳目一新。然而,我感到难过的是,它们没有收到捐款,人们不使用它,有时人们觉得有权要求某个功能。 这个兔子洞太深了,但如果我们想与大众分享,那么我们需要讨论什么是初学者应该分享的优先事项。我们需要一个真正的维基来开始开源生活。我不知道我是怎么开始的,也许只是使用Linux,然后搜索任何软件,写下“替代X的开源软件”等等。 Awesome-privacy在一开始也帮了我很多。我实际上读完了它,还有privacyguides.net和许多其他优秀的指南,但它们仍然没有得到关注。 那么,人们应该创建另一个指南来进一步分散注意力,还是应该将注意力重新引导到我们可能讨论的适合每个人的列表上?我有很多问题。 我们可以拥有更好的东西,这让我充满希望。但问题是,这并不只需要我改变,而是世界在这个过程中也需要稍微改变,这让我感到困惑。 我是否有能力朝这个方向改变世界?我们中的任何人都有吗?我在这个系统中感到渺小,但我知道给予希望也会是复杂的。我不想为一些超出我控制的事情而感到悲伤,但问题是,这件事情是否超出了我们的控制? 我觉得我不知道答案。我只是不知道,这就是我在这里提问的原因。但我仍然想要保持希望,你知道的。 祝你有美好的一天,期待你们每一个人的评论!
23作者: Sean-Der4 个月前原帖
备用链接:<a href="https://mrchristmas.com/products/santas-magical-telephone" rel="nofollow">https://mrchristmas.com/products/santas-magical-telephone</a><p>视频演示:<a href="https://www.youtube.com/watch?v=0z7QJxZWFQg" rel="nofollow">https://www.youtube.com/watch?v=0z7QJxZWFQg</a><p>第一次与人工智能圣诞老人交谈时,它用一个笑话回应我,我立刻被吸引住了。乐趣和无厘头的感觉,直到你亲自尝试才会真正感受到。更令人兴奋的是,你可以自己动手制作:<p>libpeer: <a href="https://github.com/sepfy/libpeer" rel="nofollow">https://github.com/sepfy/libpeer</a><p>pion: <a href="https://github.com/pion/webrtc" rel="nofollow">https://github.com/pion/webrtc</a><p>然后在你的 Pion 服务器上实现所有有趣的逻辑。连接到任何语音 AI 提供商,或者通过开源自行开发。任何事情都是可能的。<p>如果你有问题或遇到任何障碍,我很乐意帮助你。我在我的 GitHub 上有很多硬件片段:<a href="https://github.com/sean-der" rel="nofollow">https://github.com/sean-der</a>。