1作者: lu7943773 个月前原帖
嗨,HN, 我们开发了Omnilingual ASR,一个大规模的多语言语音识别系统,旨在让全球的转录变得更加可及。它支持1600多种语言,包括500种之前不被支持的低资源语言,所有语言的识别准确率均达到最先进的水平。 与通常仅限于主要语言的语音识别模型不同,Omnilingual ASR在430万小时的多语言音频上进行训练,对于78%的支持语言,其字符错误率低于10%。它的参数规模从3亿到70亿不等,允许用户根据任务需求在速度和精度之间进行平衡。 主要特点: • 1600多种语言覆盖 – 可通过零样本学习扩展到5400多种语言 • 零样本适应 – 仅需几个上下文示例即可添加新语言 • 多说话人检测 – 自动识别和区分说话人 • 闪电般的处理速度 – 数小时的音频在几分钟内完成转录 • 灵活的集成 – 提供REST API、Python SDK和网页用户界面,适用于云端或边缘计算 应用场景: 全球媒体字幕、企业转录、多语言在线学习、无障碍服务和语言研究。 我们希望获得以下方面的反馈: • 低资源语言转录的潜在应用场景 • 集成需求(API、SDK、插件) • 研究或语言保护应用 <a href="https:&#x2F;&#x2F;www.omnilingualasr1.com&#x2F;?i=d1d5k" rel="nofollow">https:&#x2F;&#x2F;www.omnilingualasr1.com&#x2F;?i=d1d5k</a>
1作者: mireklzicar3 个月前原帖
CellARC是一个用于抽象和推理的合成基准,基于多色一维元胞自动机(CA)构建。每个实验包含五对支持样本和一个查询,序列化为256个标记,使得在小模型上能够快速迭代,同时暴露出一个可控的任务空间,具有明确的调节参数,包括字母表大小k、半径r、规则家族、Langton的λ、查询覆盖率和细胞熵。我们发布了95,000个训练实验以及两个1,000个测试拆分(插值/外推),并评估符号、递归、卷积、变换器、递归和大型语言模型(LLM)基线。CellARC将泛化与类人先验解耦,支持无限难度控制的采样,并能够重复研究模型在有限预算下推断新规则的速度。 论文:<a href="https://arxiv.org/abs/2511.07908" rel="nofollow">https://arxiv.org/abs/2511.07908</a> 代码:<a href="https://github.com/mireklzicar/cellarc" rel="nofollow">https://github.com/mireklzicar/cellarc</a> 基线:<a href="https://github.com/mireklzicar/cellarc_baselines" rel="nofollow">https://github.com/mireklzicar/cellarc_baselines</a> 数据集:<a href="https://huggingface.co/datasets/mireklzicar/cellarc_100k" rel="nofollow">https://huggingface.co/datasets/mireklzicar/cellarc_100k</a> 网站与排行榜:<a href="https://cellarc.mireklzicar.com/" rel="nofollow">https://cellarc.mireklzicar.com/</a>