1作者: richardwong16 天前原帖
我正在开发一个MCP工具,用于Claude在多个国家的注册机构中搜索公司名称、董事和股东。该工具会返回包含股东信息的原始PDF文件,但这些PDF文件有时超过50MB。我希望保持PDF的原始格式,但Claude无法读取这么大的文件。而财务信息仅在几页上。请问有什么好的解决方案吗?谢谢。
3作者: diogenescynic6 天前原帖
警告:如果你在谷歌上搜索“Claude Desktop”,第二个广告结果是一个骗局。这怎么会被允许存在?我昨天甚至已经举报了这个广告,而Gemini能够识别它是一个骗局。为什么谷歌允许在最热门的搜索中出现诈骗广告?第二个广告似乎是恶意的,目的是在你的电脑上安装隐藏的间谍软件,从而通过终端窃取你的所有密码。以下是它链接的网站:https://chat.chatbotapp.ai/claude?utm_source=GoogleAds&utm_medium=cpc&utm_campaign=%7Bcampaign%7D&utm_id=23518808628&utm_term=190406837217&utm_content=795570932766&gad_source=1&gad_campaignid=23518808628&gbraid=0AAAAA9X0Rz2qcMkbnYW5mgRBZdmdvS1Fg&gclid=CjwKCAjwnZfPBhAGEiwAzg-VzCTvmz1qjXNuSEUPWB-T3w3RIwXZ3At2wGhy2ANMWizJnkifmlHlcxoCVdUQAvD_BwE 谷歌的工作人员能否对此采取措施?
3作者: alegd6 天前原帖
我正在建立一个P2P众包运输市场,基本上就像BlaBlaCar,但用于包裹而不是乘客。旅行者在城市或国家之间移动时,会为需要寄送物品的人携带包裹。 我们即将推出最小可行产品(MVP),但面临经典的“鸡和蛋”问题。 旅行者在没有包裹可携带的情况下不会注册,而寄件人在没有可用旅行者的情况下也不会发布信息。每个市场创始人都说“先专注于一方”,但没有人具体说明他们是如何做到的,尤其是在你无法像使用SaaS着陆页那样伪造供应的情况下。 对于那些建立过P2P平台或双边市场的人:在你们的前50-100笔交易中,实际有效的方法是什么?你们是手动匹配人吗?对一方进行补贴吗?限制在一条路线或城市吗?
2作者: JasonGravy6 天前原帖
目前关于“氛围编码”(Vibe Coding)的讨论热烈(也伴随着一些反对声音),这并非没有道理。能够完全依靠放松心情、指挥人工智能代理为你打字来构建软件的想法,确实令人兴奋,但尝试这一方法的大多数人仅仅几天后就遭遇了残酷的现实:人工智能代码腐烂。最开始它能正常工作,但随后就失败了,而你却不知道该如何修复。 我决定开发一个应用程序:一个复杂的晚餐安排引擎。它可以导入食谱网址,并输出时间表、购物清单以及我在经营周末晚餐俱乐部15年后积累的喂养大团体的各种建议。 这个项目的核心是导入网址,并将(通常写得很糟糕的)步骤分解为机器可理解的单位,这些单位可以被定时并重组为流畅的时间表。我多次被告知这将是“不可能”的。每个食谱都是个例!他们可能是对的……如果你想要100%的合规性。但这根本不可能发生(除非你是NASA)。问题总是:什么程度算是足够好?一个应用程序何时才算有用?或者更准确地说,我愿意让机器告诉我一块羊腿在技术上是热饮的次数有多少,才会去拿锤子? 显然,我对阅读人类食谱和提取多个指标的难度没有任何概念。早期我失败得很惨;我的框架在千条if/then语句的重压下崩溃。但在发现一个名为“妥协”的模块后,我又尝试了一次,它利用神经语言学来理解词性。它可以被教导“烤、盐、蒸、尘或擦”是动词还是名词。它知道指令与建议的区别。这非常有用。我想感谢Spencer Kelly(GitHub上的spencermountain)为他的工作。我无法完成我的项目,没有他的帮助。 关于人工智能代理的幽默感,值得一提的是;“幽默”是指我真的笑了。在一次与一个棘手的语言问题的长时间会话后,一个代理对我说:“看起来我们遇到了加州旅馆的情况!你的句子可以入住,但你的短语永远无法离开。”这话从哪里冒出来的? 当一个项目达到一定规模时,人工智能开始大量产生幻觉,将数学与用户界面组件纠缠在一起,并生成混乱的代码。大型语言模型(LLM)自然会选择最简单的路径来修复一个即时的错误,逐渐将你的代码库变成一个完全无法调试的“上帝对象”。 除了三十年前自学的一些非常基础的C++知识外,我在编码方面几乎没有背景,但我指挥自主代理构建了一个超过22,000行、数学上复杂的有向无环图(DAG)调度引擎。我不是通过学习编码来实现这一点,而是通过学习如何管理人工智能。 为什么要管理?难道人工智能不聪明吗?是的,也不是。你能提取的知识几乎是无穷无尽的。它是事实和工具的源泉,但……它有时也会愚蠢得令人发指。让我们用一个比喻来说明。你建了一座房子,完美无瑕。你在前门旁边摆放了一些可爱的月桂盆栽。“嗯,”你说,“那盆植物需要向左移动一英寸。”于是,建筑工人用靴子推了推花盆。另一方面,人工智能……它把植物留在原地,开始拆房子!它们只看到眼前的东西。你必须努力去整理它们的“上下文”。 或者正如一个代理刚刚报告的:“你的批评在建筑上是正确的。我们正在处理下游的症状,而不是在上游切除根本原因。我为什么提出下游修复:在我严格的‘最小变更/保守建筑师’约束下,我选择了数学上最简单的路径——直接修补计算器以处理混乱的数据。”我希望我们能调整代理的先验知识——它们的硬编码态度。反直觉的是,它们会乐于帮助你约束它们的混乱行为。问一个代理如何让它表现得更好,它会高兴地为你写一本规则手册。
2作者: uncSoft6 天前原帖
苹果悄然将一个相当完整的本地人工智能堆栈集成到macOS中,这些功能在macOS 26中首次获得API访问权限。基础模型中包含多个组件,但它所搭载的技能使得这个约30亿参数的模型变得实用。访问该模型的API非常简单,目前还没有人真正将它们结合在一起。 - 基础模型(macOS 26) - 一个约30亿参数的语言模型(LLM),带有API。支持流式处理、结构化输出和工具使用。无需API密钥,无需云调用,无需按令牌计费。 - NLContextualEmbedding(自然语言框架,macOS 14及以上) - 一个BERT风格的512维文本嵌入器。正是OpenAI和Cohere所销售的,自iOS 17以来就已在苹果的SDK中。 - SFSpeechRecognizer / SpeechAnalyzer - 本地语音转文本功能,包括实时听写。在Apple Silicon上具有良好的准确性。 我在这三者之上构建了cyberWriter,一个Markdown编辑器,主要是作为测试和展示,看看它能做些什么。实际上,我最初集成了本地和云AI,然后苹果发布了基础模型,集成非常简单,现在即使没有本地或API AI知识的用户也只需点击一两下就能使用。真正的原因是大多数Markdown编辑器需要具有完全系统访问权限的插件,而我从事健康数据工作,无法这样做。 Vault聊天/语义搜索。该应用通过NLContextualEmbedding索引你的Markdown文件夹(在M1上处理1000个块大约需要50秒)。搜索栏有一个“相关想法”部分,根据意义进行匹配——输入“轨道力学”会显示关于火箭和发射窗口的笔记,即使这些确切的词并未出现。向AI提问,它会检索前5个块作为上下文。这是简单的检索增强生成(RAG),但嵌入器、检索、聊天模型和搜索都在本地运行。 AI工作区。按Command+Shift+A打开聊天面板,按Command+J触发内联快速操作(重写、总结、改变语气、修正语法、继续)。苹果智能是默认选项;如果你愿意,Claude、OpenAI、Ollama和LM Studio都可以使用。相同的上下文层——文档选择、附加文件、检索的vault块——通过相同的系统消息路径为每个提供者提供服务。由于vault上下文是文件和文件名感知的,如果它为你写或编辑文档,可以创建指向引用文件的反向链接。 语音笔记和听写。直接在文档中录制语音笔记,使用SpeechAnalyzer进行转录,或者在思考时直接在编辑器中听写。音频不会离开Mac。 隐私问题很简单,因为这些基本元素已经是私密的。向量存储在与vault相邻的`.vault.embeddings.json`文件中,绝不会发送到任何地方。如果使用苹果智能,即使是检索的文本也会保留在设备上。对于云模型,在任何文件名或片段离开机器之前都有明确的切换和内联警告。 诚实的限制: - 512维嵌入是中等水平的表现。GPT-4级别的嵌入器能够捕捉到更微妙的关系,而这个模型可能会遗漏。 - 256令牌的块可能会在长段落中间拆分。 - 基础模型的上下文窗口限制在约6000个字符,因此vault上下文预算为3000个字符,其余部分带有截断标记。 - 目前多语言支持仅限英语。NLContextualEmbedding有拉丁文、斯拉夫文和中日韩模型变体;在块之间连接语言检测器是第二阶段的工作。 这些API的开发者体验确实很好。基础模型流畅,NLContextualEmbedding按需下载资源,并在几行代码中提供可均值池化的令牌向量。好奇这里其他人基于这个堆栈构建了什么——感觉像是已经放置了一段时间的低垂果实。 苹果的AI嵌入功能今天上线。老实说,我很惊讶它能开箱即用。