1作者: anarmorarm1 天前原帖
WaveletLM是一种基于小波变换的无注意力架构,它用学习到的提升小波分解、快速沃尔什-哈达玛变换、每个尺度的门控谱混合(使用SwiGLU激活函数)、逆快速沃尔什-哈达玛变换和小波重构替代了自注意力机制。结合扩展的多层感知器(MLP)和稀疏产品键记忆,这使得模型在序列长度上具有O(n log n)的扩展性。 在WikiText-103上,WaveletLM的困惑度为23.8,超越了在80倍数据上训练的GPT-2 Medium和使用递归扩展有效上下文的Transformer-XL Standard。由于预算限制,该模型训练不足且正则化不足,因此还有很大的发展和改进空间。 我邀请任何感兴趣的人来检查该模型,进行测试,并进一步扩展其能力。所有代码和权重都是完全开源的,PG-19的运行将在2-3天内完成。在4-5 GB的显存下,生成速度为28.8个标记/秒,使用20 GB显存的情况下,模型的训练时间为16.25小时,均在5090上进行。 比较表、说明、日志和未来计划的README: <a href="https://github.com/ramongougis/WaveletLM" rel="nofollow">https://github.com/ramongougis/WaveletLM</a> 权重: <a href="https://huggingface.co/ragou19/WaveletLM/tree/main" rel="nofollow">https://huggingface.co/ragou19/WaveletLM/tree/main</a> 生成结果: <a href="https://github.com/ramongougis/WaveletLM/blob/main/logs/wikitext-103_2026-04-22_01-36-47/generations.txt" rel="nofollow">https://github.com/ramongougis/WaveletLM/blob/main/logs/wiki...</a> 以下样本是为了连贯性而选择的,而非事实准确性。确保事实准确性需要扩展和下游技术,如RAG和指令调优。 &gt; 这座城市的历史体现在其建筑中,包括历史悠久的老城区和新城堡县法院广场历史区。该建筑由约翰·H·史蒂文斯设计,他还设计了1906年的阿尔巴尼-富尔顿庆典,并在湖岸建造了一座钢壳船厂。 &gt; 该专辑于2007年8月25日由索尼音乐娱乐公司发行,包含多首歌曲,包括《Never Say Die》、《The Show》、《Don't Cry for Me Argentina》和《I Can Only Imagine (But You Are Not Alone)》的翻唱。 &gt; 该物种首次由瑞典动物学家卡尔·林奈于1758年描述为Agaricus adustus。属名源自拉丁词perma“绑”,而pous(“像”)意为“有大头”。1821年,法国真菌学家让-巴蒂斯特·德·拉凯尔将其归入食肉目Cricetae部分。他后来将其重新命名为Spongiforma punctata,源自希腊语kribensis。
2作者: GavinRatta1 天前原帖
我思考这个问题已经有一段时间了——我使用的每一个人工智能工具都需要我每次都解释自己。我想要什么,处于什么样的背景,我需要完成什么任务。 感觉人工智能并没有适应任何事物,反而是我还得适应它。 我现在16岁,正在探索这是否是人们面临的一个真实问题——即人工智能在你提出要求之前就能完成工作,基于你手机上已有的数据(如日历、提醒、健康信息)。 不需要提示工程,也不需要解释自己。它就是知道。 这真的是你想要的东西吗?老实说,是什么能让你信任这样的东西并愿意使用它? 我并不是在推销什么,只是在试图理解这个问题对其他人是否也真实存在。