返回首页
最新
嗨,HN,
我们开发了Omnilingual ASR,一个大规模的多语言语音识别系统,旨在让全球的转录变得更加可及。它支持1600多种语言,包括500种之前不被支持的低资源语言,所有语言的识别准确率均达到最先进的水平。
与通常仅限于主要语言的语音识别模型不同,Omnilingual ASR在430万小时的多语言音频上进行训练,对于78%的支持语言,其字符错误率低于10%。它的参数规模从3亿到70亿不等,允许用户根据任务需求在速度和精度之间进行平衡。
主要特点:
• 1600多种语言覆盖 – 可通过零样本学习扩展到5400多种语言
• 零样本适应 – 仅需几个上下文示例即可添加新语言
• 多说话人检测 – 自动识别和区分说话人
• 闪电般的处理速度 – 数小时的音频在几分钟内完成转录
• 灵活的集成 – 提供REST API、Python SDK和网页用户界面,适用于云端或边缘计算
应用场景:
全球媒体字幕、企业转录、多语言在线学习、无障碍服务和语言研究。
我们希望获得以下方面的反馈:
• 低资源语言转录的潜在应用场景
• 集成需求(API、SDK、插件)
• 研究或语言保护应用
<a href="https://www.omnilingualasr1.com/?i=d1d5k" rel="nofollow">https://www.omnilingualasr1.com/?i=d1d5k</a>
CellARC是一个用于抽象和推理的合成基准,基于多色一维元胞自动机(CA)构建。每个实验包含五对支持样本和一个查询,序列化为256个标记,使得在小模型上能够快速迭代,同时暴露出一个可控的任务空间,具有明确的调节参数,包括字母表大小k、半径r、规则家族、Langton的λ、查询覆盖率和细胞熵。我们发布了95,000个训练实验以及两个1,000个测试拆分(插值/外推),并评估符号、递归、卷积、变换器、递归和大型语言模型(LLM)基线。CellARC将泛化与类人先验解耦,支持无限难度控制的采样,并能够重复研究模型在有限预算下推断新规则的速度。
论文:<a href="https://arxiv.org/abs/2511.07908" rel="nofollow">https://arxiv.org/abs/2511.07908</a>
代码:<a href="https://github.com/mireklzicar/cellarc" rel="nofollow">https://github.com/mireklzicar/cellarc</a>
基线:<a href="https://github.com/mireklzicar/cellarc_baselines" rel="nofollow">https://github.com/mireklzicar/cellarc_baselines</a>
数据集:<a href="https://huggingface.co/datasets/mireklzicar/cellarc_100k" rel="nofollow">https://huggingface.co/datasets/mireklzicar/cellarc_100k</a>
网站与排行榜:<a href="https://cellarc.mireklzicar.com/" rel="nofollow">https://cellarc.mireklzicar.com/</a>