1作者: khurdula大约 1 个月前原帖
大多数人工智能产品都是围绕同一个理念构建的。<p>采用一个大型模型,添加一个提示,然后希望它能完成整个工作。这就像是人工智能版的“喷洒式祈祷”。<p>这种方法在聊天机器人、代码生成、网站设计和电子邮件撰写等创造性输出方面效果很好。但是,对于那些需要高度确定性输出的开发工作,这种方法很快就会失效。比如,银行的KYC(了解你的客户)中的光学字符识别(OCR)或医生与患者之间的音频识别。<p>我们已经对特定任务训练了结构化语言模型(SLMs)一段时间。在这个过程中,我们不断看到同样的模式。尽管有着优秀基准的最先进语言模型(SOTA),但在实际重要的部分却失败了:例如,读取像1040表格这样密集的PDF,从高度保护的网站提取干净的数据,快速转录长时间通话中的发言,或以代码可以信任的格式返回输出。<p>因此,我们花了一年时间研究如何解决确定性问题。正如我们许多人所想的,更多的数据是解决方案。但实际上并非如此……虽然数据是问题的一部分,但重新思考架构才是解决上下文漂移等问题的关键。<p>请查看我们的论文:<a href="https:&#x2F;&#x2F;arxiv.org&#x2F;abs&#x2F;2602.04101" rel="nofollow">https:&#x2F;&#x2F;arxiv.org&#x2F;abs&#x2F;2602.04101</a>(已被IEEE CAI 2026接收)<p>过去的传统人工智能/机器学习模型,如YOLO、EasyOCR、PaddleOCR,通常在单一任务上表现出色,能够提供一致的输出,如置信度评分,但在规模扩大时很快就会过时,受限于用于训练的数据,同时需要一支机器学习工程师团队来维护模型,从而提高了成本。大型语言模型(LLMs)提供了更高的灵活性和与自然语言互动的能力,使其具有可推广性,但在对敏感任务的处理上却容易产生幻觉,无法容忍错误。<p>我们将深度神经网络(DNNs)/卷积神经网络(CNNs)与变换器(Transformers)结合,构建了一个状态模型,兼具传统机器学习模型的优势:确定性和可靠性,以及大型语言模型的可推广性。<p>Yoeven和我拥有超过14年的综合研究和开发经验,我们组建了一支出色的研究人员、软件和基础设施工程师团队,专注于人工智能模型在开发任务中可以做更多工作的事实。这使我们能够在您技术栈的每个部分提供可控的人工智能。