1作者: carlsborg1 天前原帖
AWS收入:约350亿美元(同比增长24%,为13个季度以来最快增长) AWS营业收入:约120亿美元(同比增长17%) “人工智能、芯片、机器人和低地球轨道卫星:我们预计到2026年将在亚马逊的资本支出上投资约2000亿美元。” 这正在侵蚀自由现金流(FCF),过去5个季度显示出下降趋势,目前约为110亿美元。相比之下,微软的自由现金流也下降至约50亿美元。(FCF = 营业现金流 - 资本支出) 定制芯片:Trainium和Graviton的年收入总额现已超过100亿美元,并且以三位数的百分比同比增长。 本季度有许多与代理相关的新发布:Nova Act(用于构建UI工作流程的AI代理);Amazon Bedrock AgentCore(构建代理的基础设施模块);“前沿代理”Kira、AWS安全代理、AWS DevOps代理;Amazon Connect(呼叫中心平台)的Agentic AI能力。
1作者: nworley1 天前原帖
多年来,搜索引擎优化(SEO)一直意味着为谷歌的爬虫进行优化。但越来越多的发现似乎发生在其他地方: ChatGPT Claude Perplexity 基于人工智能的搜索和助手。 这些系统并不像搜索引擎那样“排名页面”。它们选择来源,进行总结,并直接推荐。 在深入研究这个问题时,有几件事让我感到惊讶: - AI模型主动从网站获取页面(有时是用户触发,有时是系统驱动) - 某些页面被AI反复访问,而其他页面则从未被访问 - 提及和推荐似乎与上下文覆盖和来源权威性相关性更大,而不是传统的关键词定位。 问题在于,这一层对大多数开发者来说是不可见的。 分析工具显示的是人类行为。 SEO工具显示的是谷歌。 但AI流量、获取和提及基本上是一个黑箱。 我开始将这种转变视为: GEO(生成引擎优化)或AEO(答案引擎优化), 并不是作为流行词,而是作为我们优化对象的真正变化。 为了更好地理解这一点,我最终构建了一个小型内部工具(LLMSignal),仅用于观察: - AI系统何时接触一个网站 - 它们阅读哪些页面 - 品牌何时出现在AI的响应中。 到目前为止,最大的收获是: 如果AI正在成为通往互联网的前门,大多数网站根本不知道这扇门是否对它们开放。 我很好奇这里的其他人是如何看待以下问题的: - 为AI与搜索进行优化 - SEO是否会适应或被取代 - 开发者应该对AI系统有多少可见性。 我并不是想推销什么——我真心对大家如何看待这一演变感兴趣。
4作者: UmYeahNo1 天前原帖
我很好奇您在配置良好的 M3 Ultra 或 M4 Pro Mac Studio 上运行本地大型语言模型(LLM)的经验。我注意到关于 Mac Studio 用于本地 LLM 的讨论不多,但似乎您可以利用共享的显存将大型模型加载到内存中。我猜测生成令牌的速度可能较慢,但由于可以加载更大的模型到内存中,您可能会获得更高质量的结果。
4作者: Shubham_Amb1 天前原帖
嗨,HN,我是Shubham,一名3D艺术家,在大学时学习了编程,作为IT专业毕业生,我了解一些逻辑,但并不是专家,只是想尝试一下人工智能。 我构建了“弹性工作流哨兵”,这是一个离线AI代理,可以根据紧急程度(低、中、高)对任务进行分类,并根据候选人的可用性进行分配。我希望有一个离线系统,让人们可以信任其敏感数据,确保数据完全保留在本地。 我确实使用AI来加速编码和减少人工成本。这个系统运行在RTX 3080的设备上(这是一个基本的、经济实惠的设置,而不是重型AI机器),我希望在不进行重大升级的情况下使其变得可靠。 这个完整的系统不需要Ollama(我并不反对它)。我注意到在公司中,工单通常是在Jira和Slack上提出的。目前,员工或经理(自我管理)必须手动逐一阅读这些工单,或者将它们发送到云端。但问题在于,很多敏感数据无法发送,因为他们不信任云端,这使得手动筛选成千上万的工单变得非常困难。 想象一下,如果你能将所有任务按紧急程度和分配进行分类,你可以有选择性地查看哪些任务是紧急的,需要立即处理,并且所有信息都不会离开你的办公大楼,完全安全。 此外,API发送并不是唯一的问题,你为每个任务支付的代币费用可能每月在100到1000美元之间,这对于初创公司或其他企业来说,可以节省很多麻烦。 在开始时,我尝试了诸如“思维链”、“RISE(先评估负面)”等提示,提供负面和正面示例,但在常识问题上遇到了一些困难(后来我改变了方法)。虽然提示确实给出了输出,并且效果不错,但处理单个任务的时间过长,大约需要70到90秒。 然后我尝试了批处理,但偏差变得更严重,模型总是偏向某些特定的提示,忽略了更多的提示。对于JSON输出,我使用了约束,使模型只能生成JSON,如果失败,还有一个解析器在我实施提示时使用。 这将每个任务的处理时间从90秒减少到大约15到30秒。我使用了引导向量来纠正注意力问题。 技术栈: - 语言:Python 3.10 - 模型:qwen2.5-7b-instruct - 库:Pytorch,Hugging Face Transformers(不使用Langchain,不使用Ollama) - API:Fast API - 用户界面:NiceGUI - 硬件:Ryzen 5,16GB RAM,RTX 3080 实施细节: - 量化:以nf4量化加载模型,使得像7b这样的模型可以适配10GB的显存,这在RTX 3080上也是我的硬件。 - 引导向量:标准提示不足以满足需求。我需要在大型语言模型的某一层阻止或引导某些内容,以提高可靠性。 - JSON约束:使用约束使模型严格输出JSON,并防止过度解释,这发生在logits层面,阻止不必要的token等。 GitHub链接:[https://github.com/resilientworkflowsentinel/resilient-workflow-sentinel](https://github.com/resilientworkflowsentinel/resilient-workflow-sentinel) YouTube链接:[https://youtu.be/tky3eURLzWo](https://youtu.be/tky3eURLzWo)
4作者: ryanyu1 天前原帖
我认为代理应该像真正的团队一样运作,具备独立且明确的角色、异步沟通的能力,以及在不重组整个组织的情况下能够引入新队友或工具。我曾在雅虎和抖音构建后端系统,因此事件驱动的代理对我来说显而易见。但当时没有代理SDK采用这种模式,所以我创建了Calfkit。 Calfkit将代理分解为独立的服务(如LLM推理、工具和路由),通过Kafka进行异步通信。代理、工具服务和下游消费者可以独立部署、添加、移除和扩展。 如果你对此感兴趣,可以看看!我很想知道你们的看法。