从昨天开始,我利用手头的一些文档(黑客马拉松组织说明)创建了一个数据集,然后开始对Qwen 3.5进行微调。整个过程只花了几个小时!我对其易用性感到印象深刻——它是一个聊天机器人,即使没有太多经验的人也能按照步骤操作。不过,我并不想贬低它,我相信它也非常适合严谨的实验室使用。
返回首页
最新
据我所知,许多处方药来自中国和印度。如果与中国和印度的贸易被切断:
- 每个国家在耗尽处方药之前还有多久的库存?药房、实验室和国民警卫队的储备情况如何?
- 每个国家需要多长时间才能提高自身的药物生产能力?
- 是否有些国家会选择让自己的药物供应耗尽?例如优生学,允许血压反弹和中风等情况自行发展,以降低长期医疗成本。
*这是我在听了Doomberg一段时间后想到的事情。*
<a href="https://old.reddit.com/r/sysadmin/comments/1sbdw29/if_youre_running_openclaw_you_probably_got_hacked/" rel="nofollow">https://old.reddit.com/r/sysadmin/comments/1sbdw29/if_youre_...</a><p><a href="https://web.archive.org/web/20260403174514/https://old.reddit.com/r/sysadmin/comments/1sbdw29/if_youre_running_openclaw_you_probably_got_hacked/" rel="nofollow">https://web.archive.org/web/20260403174514/https://old.reddi...</a>
这是我Speck项目的精神继承者,Speck项目已经有些过时了。此次更新带来了重大改进,包括路径追踪、视频生成和轨迹支持。目前仅支持导入XYZ格式,但我很乐意根据需求添加更多格式。感谢您的关注!
几周前,我在HN上发布了Aurion OS。<p>自那时以来,该操作系统已从Beta版本升级到v1.0正式版,并进行了许多改进:<p>Blaze浏览器:支持HTML/CSS/JS渲染,带有标签和开发者控制台(仅限本地,目前不支持完整的http/https)<br>
安装程序包含用户账户设置和应用选择<br>
多分辨率支持(从800x600到2560x1440,我计划在下一个版本中添加4096x2160像素)<br>
Unix风格的luka@aurion提示符<br>
塞尔维亚键盘布局<br>
Python解释器和Make构建系统<br>
50多个终端命令<br>
窗口管理器的改进和错误修复<p>1.8MB的ISO文件(整个操作系统,包括浏览器和图形用户界面)<br>
支持QEMU、VirtualBox、VMware和v86<p>您可以通过上面的链接在线试用,或从GitHub下载ISO文件:<a href="https://github.com/Luka12-dev/AurionOS" rel="nofollow">https://github.com/Luka12-dev/AurionOS</a><p>这是我作为爱好/学习项目独立开发的。我13岁,欢迎任何反馈和建议!
我建立了一个管道,可以将建筑文件以PDF格式输入,并提取出平面图。它以像素级的精确度从平面图中提取出BIM数据,准确生成墙壁、地板、窗户和门的数据。同时,它还生成平面图的3D效果图和简短的10秒3D视频。我曾与多家公司进行过多次讨论,试图在其中建立解决相同问题的合作,但尚未达成交易,因此考虑作为独立创始人将其推向市场。我目前在英国和美国以外的地区,正在寻找一位创始人以便于市场准入和未来的融资。作为独立创始人,进入市场的最佳建议是什么?
我会经历不同的阶段,不过我发现,在进行更密集的任务时,听一些没有歌词的音乐是非常有帮助的。<p>以下是我最近在听的音乐:<p>----<p>《探险33号》原声带,
《炉石传说》原声带,
《塞尔达传说》经典曲目(小提琴曲),
《指环王》原声带,
《霍比特人》原声带,
《纳尼亚传奇》原声带<p>古典音乐合集:
巴赫,莫扎特,贝多芬,维瓦尔第<p>----<p>我订阅了Apple Music,但我相信Spotify等平台也有这些音乐。<p>你最近有没有听过什么喜欢的音乐呢?
这是我在HN上的第一篇帖子——有点紧张,但也很兴奋能分享我正在构建的东西。
我一直在开发一个可以在消费级硬件上运行的7B稀疏专家混合模型原型。例如,在Colab T4上,它在训练期间使用大约5 GB的RAM和5 GB的显存,推理时大约需要3.5到5 GB。
我花了很多时间在几个方面:
**路由(SmartRouter)**
我尝试以一种实用的方式解决路由崩溃的问题。与其让所有的token都倾向于几个“最爱”的专家,我结合了几种方法:负载均衡损失、保持分布平坦的熵奖励、训练期间的抖动噪声,以及一个可学习的温度。这个方法在保持大量专家活跃方面效果出乎意料地好。如果有人想查看数学原理或将其用于自己的项目,我已经开源了路由器代码(hive_router.py)。
**基础课程训练(FCT)**
在标准预训练之前,我让模型通过结构化推理模式进行训练——目前有290个模式,涵盖14个认知领域。每个模式遵循严格的顺序:观察 → 先验 → 更新 → 涟漪 → 类比 → 行动。
为了让这个在我的设置上实际运行,我做了几个特定的技巧。首先,我使用了目标专用损失(屏蔽标签和输入,仅对实际推理负载(如更新或行动)计算梯度)。其次,我不得不编写一个自定义的SparseExpertAdamW,只为在该步骤中实际活跃的专家实例化优化器状态。如果没有这个,20480个专家的优化器状态将会彻底压垮我的RAM。
到目前为止,我已经完成了14个领域中的5个。一个很酷的事情是:每个新领域的损失都低于前一个领域(例如,系统领域的损失从2.149降到0.941),这似乎表明跨领域迁移确实在发生。
**架构简述:**
- d_model = 2048
- 10层(5个密集核心 + 5个融合层)
- 20480个专家(8个领域 × 2560)
- 动态Top-K(2–4)
- 内存映射权重 + Dopamine Learning v1
模型已上传至HuggingFace:[https://huggingface.co/OpenSynapseLabs/arche3-7b](https://huggingface.co/OpenSynapseLabs/arche3-7b)
我将基准测试和图表放在了GitHub上:[https://github.com/OpenSynapseLabs/arche3-benchmarks](https://github.com/OpenSynapseLabs/arche3-benchmarks)
**局限性(老实说):**
我还没有运行标准基准测试(MMLU、GSM8K、HumanEval),只有5/14个FCT领域完成,数据集仍然较小,需要适当扩展。此外,这目前是一个独立项目。我确实使用了Gemini和Claude来加速部分实现,但架构和核心思想都是我自己的。
我非常欢迎任何反馈,特别是如果你对MoE模型中的路由、课程预训练或进一步扩展(考虑到35B)感兴趣。
我的主要目标是构建能够增强人类思维的系统,而不是取代它。如果这听起来像是你想要参与或贡献的内容,请随时通过opensynapselabs@proton.me与我联系。我很乐意分享更多细节和私有仓库。
感谢阅读!
有人能推荐一下吗?我在找一部备用手机。