返回首页
最新
嗨,HN,
我们开发了Omnilingual ASR,一个大规模的多语言语音识别系统,旨在让全球的转录变得更加可及。它支持1600多种语言,包括500种之前不被支持的低资源语言,所有语言的识别准确率均达到最先进的水平。
与通常仅限于主要语言的语音识别模型不同,Omnilingual ASR在430万小时的多语言音频上进行训练,对于78%的支持语言,其字符错误率低于10%。它的参数规模从3亿到70亿不等,允许用户根据任务需求在速度和精度之间进行平衡。
主要特点:
• 1600多种语言覆盖 – 可通过零样本学习扩展到5400多种语言
• 零样本适应 – 仅需几个上下文示例即可添加新语言
• 多说话人检测 – 自动识别和区分说话人
• 闪电般的处理速度 – 数小时的音频在几分钟内完成转录
• 灵活的集成 – 提供REST API、Python SDK和网页用户界面,适用于云端或边缘计算
应用场景:
全球媒体字幕、企业转录、多语言在线学习、无障碍服务和语言研究。
我们希望获得以下方面的反馈:
• 低资源语言转录的潜在应用场景
• 集成需求(API、SDK、插件)
• 研究或语言保护应用
<a href="https://www.omnilingualasr1.com/?i=d1d5k" rel="nofollow">https://www.omnilingualasr1.com/?i=d1d5k</a>
CellARC是一个用于抽象和推理的合成基准,基于多色一维元胞自动机(CA)构建。每个实验包含五对支持样本和一个查询,序列化为256个标记,使得在小模型上能够快速迭代,同时暴露出一个可控的任务空间,具有明确的调节参数,包括字母表大小k、半径r、规则家族、Langton的λ、查询覆盖率和细胞熵。我们发布了95,000个训练实验以及两个1,000个测试拆分(插值/外推),并评估符号、递归、卷积、变换器、递归和大型语言模型(LLM)基线。CellARC将泛化与类人先验解耦,支持无限难度控制的采样,并能够重复研究模型在有限预算下推断新规则的速度。
论文:<a href="https://arxiv.org/abs/2511.07908" rel="nofollow">https://arxiv.org/abs/2511.07908</a>
代码:<a href="https://github.com/mireklzicar/cellarc" rel="nofollow">https://github.com/mireklzicar/cellarc</a>
基线:<a href="https://github.com/mireklzicar/cellarc_baselines" rel="nofollow">https://github.com/mireklzicar/cellarc_baselines</a>
数据集:<a href="https://huggingface.co/datasets/mireklzicar/cellarc_100k" rel="nofollow">https://huggingface.co/datasets/mireklzicar/cellarc_100k</a>
网站与排行榜:<a href="https://cellarc.mireklzicar.com/" rel="nofollow">https://cellarc.mireklzicar.com/</a>
这是SpatialRead,一个真正属于你的非线性研究论文阅读工具。
我尝试过所有的“与PDF聊天”应用。它们确实有用,但我总觉得……被困住了。我的研究过程并不是一个线性的聊天记录,而是一个分支的、混乱的、视觉化的思想连接过程。我可以从AI那里得到很好的解释,但这些信息往往会在聊天记录中迷失。我仍然不得不将见解复制粘贴到一个单独的应用中,更不用说那些订阅锁定了。
我创建了SpatialRead来解决这个问题。它基于一个简单的理念:你的研究工具应该像你的大脑一样工作,而不是像一个聊天机器人。
SpatialRead将PDF阅读器与无限的空间画布结合在一起,所有这些都由AI强力驱动。你不仅仅是在“聊天”,你可以高亮任何文本(来自你的原始PDF或之前AI生成的答案),并使用“简化”、“解释”或“扩展”等操作。每个新的见解都会作为一个新的、连接的节点添加到画布上。你可以在深入研究一个主题时,直观地看到你的知识图谱在不断增长。
以下是使SpatialRead成为优秀工具的一些功能:
- 多模态图解说明:这是我最喜欢的功能之一。截取复杂的图表、图形、表格或图示(如我们演示中的Transformer架构),然后问:“你能解释一下这个吗?”
- AI知识图谱:高亮任何文本并点击“扩展”以深入一层。然后对这个新解释进行“简化”。接着“扩展”这个答案中的新术语。你正在构建一个分支的知识树,而不是一个平面的列表。
- 无限空间画布:SpatialRead的核心。拖放PDF研究论文或书籍,使用文本节点添加文章和论文,或简单地用聊天提示开始一个画布。以视觉方式组织你的思维,而不是以列表的形式。
- 自带密钥(BYOK):SpatialRead并不是单一模型的包装器。你可以插入自己的API密钥,支持OpenAI(GPT)、Google(Gemini)、Perplexity(Sonar)和Anthropic(Claude)。你可以完全控制成本、隐私和访问最佳模型。新模型一发布就会添加。
- 完整的组织工具:你可以在可自定义的文件夹中组织你的资料库(带有颜色和图标),并在美观的明亮模式和黑暗模式之间切换。
SpatialRead真正改变了我的研究方式,将其从被动行为转变为主动、创造性的过程。如果你曾经感到被订阅或平台锁定所困扰,你一定会喜欢SpatialRead。
这里有一个演示视频: [https://youtu.be/Z9x237wWAOo](https://youtu.be/Z9x237wWAOo)
希望你喜欢!