返回首页
最新
我决定采用一种非传统但极其有用(至少对我来说)的思维导图方法:一次处理一件事。<p>当思维导图变得足够庞大时,通常会被数百个节点、图形和文本轰炸。Brainstorms旨在展示与某个节点最近的连接,允许你根据好奇心进行探索,最重要的是,可以回溯你的步骤。<p>它还配备了一个很酷的模糊搜索功能,让你可以直接跳转到某个特定节点的状态,并从那里进行迭代。<p>与现有的思维导图软件相比,这款应用程序使用起来更加有趣和直观,而那些软件往往显得臃肿或极其过时。
最近发生了一件有趣的事情:我克隆了一个SaaS产品并与创始人分享,他对此非常生气(涉及规模、安全性等问题)。这让我思考,SaaS领域是否还存在产品护城河(我知道分发渠道是存在的)。<p>你们认为随着时间的推移,每个部门都能创建出满足其运营需求的AI驱动的内部软件吗?<p>你认为组织会希望从按用户计费的定价模式转向固定的内部软件维护费用吗?
链接:https://openreview.net/forum?id=nvb60szj5C
Twitter / X: https://x.com/julien_siems/status/1905628609714286687
作者:Julien Siems、Timur Carstensen、Arber Zela、Frank Hutter、Massimiliano Pontil、Riccardo Grazzi*(*同等贡献)
摘要:线性递归神经网络(线性 RNN)已成为序列建模中与变压器(Transformers)竞争的替代方案,提供高效的训练和线性时间的推理。然而,现有架构在表达能力和效率之间存在根本性的权衡,这由其状态转移矩阵的结构决定。虽然在 Mamba、GLA 或 mLSTM 等架构中使用的对角矩阵能够实现快速运行时间,但它们的表达能力受到严重限制。为了解决这个问题,最近的架构如(门控)DeltaNet 和 RWKV-7 采用了对角加秩-1的结构,允许同时进行令牌-通道混合,从而在仅略微降低训练效率的情况下克服了一些表达能力的限制。基于对 DeltaNet 的递归解释为每个令牌在关联回忆损失上执行一步在线梯度下降的理解,我们引入了 DeltaProduct,它每个令牌执行多个(nh)步骤。这自然导致了对角加秩状态转移矩阵的形成,这些矩阵是 nh 个广义 Householder 变换的乘积,提供了一种可调机制来平衡表达能力和效率,并实现稳定的递归。通过广泛的实验,我们证明 DeltaProduct 在状态跟踪和语言建模能力上优于 DeltaNet,同时在长度外推方面显著改善。此外,我们还通过证明 DeltaNet 仅需两层即可解决二面体群的单词问题,进一步加强了其理论基础。