返回首页
最新
在编写代码的单一背景下,历史上我们曾多次尝试生成代码,通常是在非常严格的约束条件下。<p>生成式人工智能(GenAI)也处于同一领域,但它有额外的步骤、优点和缺点。它并不是“一个初级开发者”,而是一种新的工具。<p>工匠喜欢这把新工具,挑战它的极限,深入研究其复杂性。工具在磨损和成本方面都有其限制。<p>初级开发者是人类,寻求生存和发展。他们比大多数人更快地掌握新工具。唯一的障碍依然是:获取这些工具的机会和对结果的可见性。<p>过度拟人化一把锤子的好处是什么呢?
嗨,HN,我们是Zaid、Muhammad和Hammad,Uplift AI的联合创始人(<a href="https://upliftai.org">https://upliftai.org</a>)。我们构建能够使用被忽视语言的模型——目前支持乌尔都语、信德语和俾路支语。
全球有十亿人无法阅读。在像巴基斯坦这样的国家——世界第五人口大国——42%的成年人是文盲。这阻碍了整个经济的发展:患者无法阅读医疗报告,父母无法帮助孩子完成作业,银行无法全面数字化,农民无法研究最佳实践,人们只能记住智能手机应用的按钮序列。语音人工智能接口可以解决这些问题,我们认为这可能是现代人工智能的伟大益处之一。
目前,现有的语音模型几乎无法支持这些语言,而大型科技公司进展缓慢。
Uplift AI最初是一个侧项目,旨在为翻译和语音模型制作数据集。对我们来说,这只是一个“有趣的副业”,并不是一个“重要的全职项目”。借助一些初步数据,我们在WhatsApp上快速搭建了一个乌尔都语语音机器人,并将其提供给一位家政工人。两天内就有800人使用了它。当我们深入了解用户时,我们发现文本接口对许多人来说并不适用。因此,我们开始全职运营Uplift AI以解决这个问题。
最具挑战性的部分是,构建优秀语音模型所需的所有基础组件在这些语言中都存在问题。例如,如果你正在创建一个语音合成模型,你会从YouTube抓取大量数据,并使用转录模型进行自动标注……在英语中这都非常简单。但在被忽视的语言中,由于转录模式不准确,这种方法并不奏效。
还有许多其他挑战。例如,当你雇佣人工转录员来标注数据时,他们通常没有适用于自己语言的拼写校正工具,这会在数据中产生大量噪音……使得在数据量少的情况下训练模型变得困难。在音素、静音检测、附加符号等方面还有更多挑战。
我们通过制作优秀的内部工具来帮助数据标注来解决这些问题。此外,我们自己获取数据,而不是购买。这看似反直觉,但相较于那些购买数据后再进行训练的公司,这是一个巨大的优势。通过自行获取数据,我们能够创建正确的数据分布,并用更少的数据获得更好的模型。通过在内部完成整个过程(数据、标注、训练、部署),我们能够更快地取得进展。
今天,我们公开提供乌尔都语、信德语和俾路支语的文本转语音API。这里有一个展示这一点的视频:<a href="https://www.loom.com/share/dcd5020967444c228e9c127151e7a9f5" rel="nofollow">https://www.loom.com/share/dcd5020967444c228e9c127151e7a9f5</a>。
可汗学院正在使用我们的技术将视频配音成乌尔都语(<a href="https://ur.khanacademy.org" rel="nofollow">https://ur.khanacademy.org</a>)。
我们的模型在信息性用例(如AI机器人)方面表现出色,但在情感性用例(如诗歌)方面还需要更多的工作。
我们已经向很多人提供了私密的测试访问,今天我们将公开发布我们的模型。我们相信这将是我们最快了解表现不佳领域的方式,以便迅速进行改进。
我们非常希望听到大家的反馈,尤其是关于你们在被忽视语言(不仅仅是我们开始的巴基斯坦语言)方面的经验,以及你们的总体意见。
嘿,HN,
我是克里斯,来自澳大利亚墨尔本的独立开发者。在过去的一个月里,我利用下班后的时间构建了AgentVisa。今天能与大家分享这个项目,我既感到兴奋,也有些紧张。
我花了很多时间思考人工智能代理的未来,越是实验,我越意识到自己是在一个脆弱的基础上构建。我们如何在这些系统中建立信任?我们如何知道我们的代理在做什么,以及谁给了他们权限?
我的长期愿景是为开发者提供一个“代理地图”——一个清晰的代理工作队伍地图,显示他们的去向以及他们被授权做什么。我今天推出的最小可行产品(MVP)就是这第一步。
核心理念很简单:停止给代理发放永久的“护照”(静态API密钥),而是为每个特定任务发放临时的“工作签证”。AgentVisa是一个简单的API,它发放安全的、短期的凭证,将代理的任务与特定用户及一组权限关联起来。
为了让这个概念更具体,我准备了一个可以在本地运行的演示,展示一个代理客服机器人如何使用AgentVisa访问内部API。你可以在这里查看: [https://github.com/AgentVisa/agentvisa-customer-support-demo](https://github.com/AgentVisa/agentvisa-customer-support-demo)
目前,底层使用的是JWT。但产品的核心不在于令牌,而在于委托权限的简单、安全的工作流程。这是我自己项目所需的模式,我希望对你们也有帮助。
我知道这里存在一个“双向问题”——当代理连接的服务器也能验证代理的真实性时,这个方案最为有效。目前,它非常适合保护你自己的内部服务,这也是我开始的地方。我的希望是,随着时间的推移,这可以成为更多服务采用的标准。
我期待来自与AI代理相关的开发者们的反馈。
这个代理身份和可审计性的问题与你们相关吗?
“签证与护照”的概念清晰吗?
你希望在我提到的“代理地图”上看到什么?
Python SDK是开放的,并且在GitHub上有慷慨的免费使用额度,你可以立即开始构建。我会尽力回答你们的任何问题。感谢你们的关注!
SDK: [https://github.com/AgentVisa/agentvisa-python](https://github.com/AgentVisa/agentvisa-python)
演示: [https://github.com/AgentVisa/agentvisa-customer-support-demo](https://github.com/AgentVisa/agentvisa-customer-support-demo)
注意:对于我们在南半球的人来说,时间有些晚了!所以如果我在睡觉时错过了你的评论,我会在澳大利亚东部标准时间早上第一时间回复你。
嗨,Hacker News的朋友们,欢迎参加我们在2025年的第二次活动。
这是一个Hacker News读者聚集的空间,大家可以在这里讨论科技、科学和商业。
地点:马斯克幽灵酒吧(Wetherspoon),伦敦老街168-172号,英国
时间:2025年8月26日(星期二),下午6点至9点
聚会信息(目前已有64名参与者):[https://www.meetup.com/hackernewslondon/events/310296581](https://www.meetup.com/hackernewslondon/events/310296581)
lu.ma(新链接):[https://lu.ma/xb70gefx](https://lu.ma/xb70gefx)
这是一个由Hacker News读者为Hacker News读者组织的非官方社区活动。