返回首页
一周热榜
Tril将代码库中的每个函数转换为简单的英文描述,然后运行并测试它们——使用大型语言模型(LLM)作为解释器,而不是运行时环境。
这个概念是:编程语言的存在是因为机器无法理解人类的意图。而大型语言模型可以理解。那么,如果完全去掉代码,仅仅描述每个函数应该做什么,会发生什么呢?
这个工具逐个替换函数,在每次替换后运行测试套件以确认没有出现错误,并输出一个.md文件。然后,`tril run`会启动一个HTTP服务器,将每个函数的英文描述发送给Claude,并返回结果。
在一个单位转换器(JavaScript)和一个625行的Python命令行工具上进行了测试——测试通过,结果精确到小数点后六位(幸运的是)。
这主要是一个思想实验:任何代码都能变成简单的自然语言吗?它仍然能正常工作吗?让我们来看看吧!
npm:
npx @sliday/tril convert URL
GitHub: [https://github.com/sliday/tril](https://github.com/sliday/tril)
建立一家初创公司。做出艰难的决策。看看你是否能实现上市。
我们从2006年10月以来每天收集了前三条HN(Hacker News)故事(总计约21,000条),对这些故事进行了主题聚类,并可视化了主题随时间的变化情况。<p>您可以放大查看任何时间段——一些模式出人意料地清晰(例如,人工智能超越创业文化成为HN的热门话题,加密货币的兴起与衰落,以及因COVID疫情导致的远程工作的激增)。<p>欢迎随时询问有关方法论的问题。
我写了一份关于我在智能体系统中思考的一个区分的概念论文草稿。
主要观点:智能体可能缺少一个可重用的操作记忆层,用于记录它们通过实际执行任务所学到的东西——这与用户记忆、检索/RAG和微调是不同的。
例子包括:
- 在执行过程中发现的工具特性
- 重复有效的工作流程模式
- 特定环境下的过程知识
- 重新发现的代价高昂的失败模式
我暂时将这个模式称为“智能体经验缓存”。
我主要想进行压力测试:
- 这是否真的是一个独立的类别
- 它与情节记忆/轨迹存储/工具使用痕迹的重叠之处
- 失败模式和失效风险的框架是否正确
草稿在这里:
https://docs.google.com/document/d/126s0iMOG2dVKiPb6x1khogldZy3RkGYokkK16O0EmYw/edit?usp=sharing
我对这种炒作曾经翻了个白眼,但实际上,<i>阅读</i>这方面的内容和<i>体验</i>它是完全不同的。如果你有任何旧的代码库,试试看,你可能会感到惊讶。
我不确定对于复杂的遗留企业系统,长期的“*90% 生产力*”的说法是否可信,但对于模板、库、构建工具和重构来说,收益是巨大的。那些耗时且令人紧张的工作大部分都得到了处理。
一开始你会像鹰一样仔细检查每一个差异,期待它会破坏东西,但老实说,很快你会发现大多数情况下这并不是必要的。你只需保持IDE开启,将“分析代码”的输出反馈给它。在Java中,告诉它“<i>添加checkstyle,运行mvn verify并修复</i>”的效果很好,你甚至可以去喝杯咖啡,而不是与linter警告作斗争。
理论上,剩下的只是<i>逻辑</i>和<i>想法</i>。当架构真正变得复杂时,我们将看看这一点是否成立。但目前,让它分支、创建模板并编写简单的测试,同时你只需在规格上进行迭代,效果出奇地好。只有在写下规格用普通英语太麻烦时,你才会编写源代码。
这提出了一个真正的问题:如果你的竞争对手Y刚刚解雇了90%的开发人员以节省成本,你会盲目跟随吗?还是会保留你的团队,利用这个巨大的杠杆,以一个远远更好的产品将Y彻底超越?