1作者: BSTRhino大约 2 个月前原帖
这是我在四天内为一个游戏开发马拉松制作的游戏。游戏的主题是通过不让坏脾气的人摧毁所有的圣诞礼物来拯救圣诞节。坏脾气的人会进行路径寻找,所以你可以在他们的路径上放置障碍物来减缓他们的速度,但他们最终会推开障碍并突破防线。这个游戏的核心在于如何在受到攻击时建立最佳的防 barricades。希望你喜欢!
1作者: Mey0320大约 2 个月前原帖
嗨,HN, 我们是来自北京大学的OpenDCAI团队。我们刚刚发布了DataFlow,这是一个开源框架,旨在使大语言模型(LLM)的数据准备过程像模型训练一样可编程和模块化。 <p>问题:虽然模型架构已经标准化(如PyTorch/JAX),但数据准备仍然主要依赖于临时脚本和松散定义的工作流程。现有的大多数工具集中于“清洗”或“过滤”现有的大型数据集,但现代LLM训练越来越依赖于复杂的合成数据生成和迭代优化。 <p>我们的解决方案:DataFlow将数据处理视为构建神经网络。它提供了类似于PyTorch的编程接口,用户可以将操作符(Operators)组合成数据处理管道(Pipelines)。 <p>关键技术特性: - 模块化抽象:就像torch.nn.Module一样,我们为操作符、提示模板和数据处理管道提供标准接口。 - 丰富的操作符库:近200个预构建的操作符,涵盖文本、数学、代码、文本到SQL和RAG等领域。 - DataFlow-Agent:一个基于LangGraph构建的智能层,能够将自然语言需求直接转换为可执行的管道。 <p>结果:我们发现数据质量比规模更为重要。 - 10k > 1M:由DataFlow生成的统一10k样本数据集使基础模型(如Qwen2/2.5)超越了在100万通用指令样本(Infinity-Instruct)上训练的对手。 - 代码与SQL:我们的管道在代码基准测试中实现了+7%的提升,在文本到SQL的执行准确率上提高了+3%,且使用的数据量显著减少。 <p>链接: - 论文:<a href="https://arxiv.org/abs/2512.16676" rel="nofollow">https://arxiv.org/abs/2512.16676</a> - 代码库:<a href="https://github.com/OpenDCAI/DataFlow" rel="nofollow">https://github.com/OpenDCAI/DataFlow</a> - 文档:<a href="https://opendcai.github.io/DataFlow-Doc/" rel="nofollow">https://opendcai.github.io/DataFlow-Doc/</a> <p>我们相信,数据工程应当享有与模型架构同等水平的严格抽象。我们希望DataFlow能够成为未来以数据为中心的人工智能发展的基础平台。
3作者: rankiwiki大约 2 个月前原帖
我一直在尝试一个非常小的副项目:一个简单的投票/排名工具。每个人都有一次投票机会,结果以排名列表的形式展示,目标不是决策,而是讨论。 让我感到惊讶的是,这类项目在各个社区中被迅速视为垃圾信息,即使没有盈利、没有广告,也没有任何增长黑客的手段。在某些地方,仅仅提到“我做了一个小的排名工具”似乎就足以引发怀疑或被审查。 我并不是想在这里推广什么。我真心对这种动态感到好奇: - 投票/排名工具是否因为常被用于操控或低质量参与而声誉不佳? - 问题是格式本身(投票、排名),还是它们通常被引入的方式? - 从社区的角度来看,什么样的实验会让人觉得是可以接受的,而不是垃圾信息? 如果你曾建立或管理过社区,或者推出过小型实验工具,我非常想听听你对此的看法。
1作者: meysamazad大约 2 个月前原帖
我使用人工智能来搭建一个全新的应用程序,并将粗略的笔记转化为精炼的博客文章。两次都有人指出这不够真实。<p>但大多数软件都是衍生的,大多数写作都是对现有思想的重新阐述。我们一直都是站在巨人的肩膀上。<p>那么,真正的界限在哪里?原创性是否要求这个想法是你自己的,执行是你自己的,还是两者都要?使用人工智能辅助的工作与使用 Stack Overflow、模板或代笔作者的工作本质上有何不同?<p>我真心想知道 Hacker News 对此的看法。