KARMA-OpenMedEvalKit 是一个可扩展的工具包,用于评估医疗应用中的人工智能模型,特别强调印度医疗环境,包含多个以医疗保健为中心的数据集。<p>KARMA 可以使用 21 个以上的医疗数据集评估基于文本、图像和音频的医疗 AI 模型。我们支持流行的模型(如 Qwen、MedGemma、IndicConformer、OpenAI、Anthropic 模型 - 通过 AWS Bedrock,以及几乎所有 HuggingFace 模型)即插即用。KARMA 还处理医疗特定的评估需求,例如需要语言感知后处理的 ASR 模型,或在基于评分标准的评估中使用大型语言模型作为评审。KARMA 会缓存模型输出,以便您可以在不重新运行昂贵推理的情况下迭代度量。<p>目前,医疗 AI 评估存在碎片化现象,研究人员通常为每个项目构建自定义评估脚本。KARMA 提供标准化的度量和注册系统,您可以轻松地将自己的模型和数据集集成进来。<p>KARMA 拥有可扩展的注册系统,配备装饰器以便于模型/数据集的集成。它支持具有数据集特定后处理的自定义度量。模型的输出根据数据点和模型配置进行缓存,以加快评估迭代速度。<p>我们对印度医疗的关注源于我们在为印度构建 AI 系统方面的工作。大多数医疗 AI 基准测试严重倾向于西方背景,忽视了医疗术语、疾病流行率和临床实践中的重要区域差异。<p>为此,我们还发布了 4 个数据集 - 医疗 ASR 评估数据集、医疗记录解析评估数据集、结构化临床笔记生成数据集、Eka 医疗总结数据集。您可以在这里找到这些数据集 - <a href="https://huggingface.co/collections/ekacare/ekacare-medical-public-datasets-6881dc5a58ec703a952e1e6e" rel="nofollow">https://huggingface.co/collections/ekacare/ekacare-medical-public-datasets-6881dc5a58ec703a952e1e6e</a><p>除了我们的数据集,我们还将发布 2 个来自 Parrotlet 系列的模型,公开领域授权为 MIT。Parrotlet-a-en-5b:一个专为医疗上下文的自动语音识别而构建的模型,适用于英语;Parrotlet-v-lite-4b:一个专为医疗报告理解而构建的模型。链接 - <a href="https://huggingface.co/collections/ekacare/ekacare-public-healthcare-llms-688362a14dae08cbda7e6210" rel="nofollow">https://huggingface.co/collections/ekacare/ekacare-public-healthcare-llms-688362a14dae08cbda7e6210</a><p>我们一直在内部使用 KARMA,并认为社区可能会觉得它有用。欢迎提出有关架构或具体用例的问题!<p>GitHub: <a href="https://github.com/eka-care/KARMA-OpenMedEvalKit" rel="nofollow">https://github.com/eka-care/KARMA-OpenMedEvalKit</a><p>文档: <a href="https://karma.eka.care" rel="nofollow">https://karma.eka.care</a><p>发布博客: <a href="https://info.eka.care/services/introducing-karma-openmedevalkit-an-open-source-framework-for-medical-ai-evaluation" rel="nofollow">https://info.eka.care/services/introducing-karma-openmedevalkit-an-open-source-framework-for-medical-ai-evaluation</a>
返回首页
最新
现在,这就像是一个针对大脑疲惫/无尽滑动的尼古丁贴片。你仍然可以滑动,但内容更加有意义。
我希望它能发展成这样:
用户可以标记他们感兴趣的主题(例如,人工智能、太空或其他),然后它应该自动抓取最新的科学文章、高质量的YouTube视频和播客,以适合你的格式呈现,形成一个美观的内容流。
现在:
你可以搜索任何内容(例如,“海洋探险者”——> 这个应用会抓取维基百科或YouTube,整合出一个简短的内容流(例如,哥伦布、达伽马等)。我使用了RAG(检索增强生成),这样我总是可以引用原始数据来源(我觉得这很重要)。
无论来源如何,我都从维基百科提取图片。目前,这也是我面临的最大挑战,因为每篇文章的图片质量和数量有限——> 我的文章看起来不够美观。
如果你经常浏览维基百科,我非常希望能得到一些反馈。
大家好,我们是来自Halluminate的Jerry和Wyatt(<a href="https://halluminate.ai">https://halluminate.ai</a>)。我们帮助人工智能实验室使用高质量数据和强化学习环境来训练计算机使用代理。
训练人工智能代理使用计算机、浏览器和软件是人工智能领域最具潜力的机会之一。然而,到目前为止,这一能力仍然不够可靠。为改善这一现状,出现了一种新兴的方法,称为可验证奖励的强化学习(RLVR)。然而,研究人员目前面临的瓶颈是缺乏高质量的模拟器和任务验证器。
为了解决这个问题,我们正在构建Westworld,这是一个完全模拟的互联网,由最常见的消费和企业应用程序的合成版本组成。代理在Westworld中学习如何执行经济价值高的任务。
例如,人工智能代理可以在一个模拟的航班预订网站上练习规划假期(<a href="https://flights.halluminate.ai">https://flights.halluminate.ai</a>),或者学习如何在销售平台上重新组织过时的信息,或者直接在电子表格中进行财务建模。
这里有一个展示我们航班预订模拟的演示:<a href="https://www.loom.com/share/74a3b28067e24c1b886054ba90a90aa5" rel="nofollow">https://www.loom.com/share/74a3b28067e24c1b886054ba90a90aa5</a>。
工作原理:人工智能代理访问我们的环境,并被分配一个任务和验证器。任务基本上是代理需要完成的目标,例如“在这个日期从旧金山到纽约市预订一张航班,使用x、y、z过滤器。”验证器是一种程序化的方法,用于确定任务是否成功完成。例如,在这种情况下,它可能是一个json,用于检查最终航班数据是否符合预期。这些信号可以用于计算强化学习中的奖励。
我们构建的模拟器越多,人工智能实验室在计算机使用代理当前薄弱的能力上就能取得更多进展。我们的一个客户在使用我们的航班预订模拟器进行训练时,日期选择性能提高了约20%。
到目前为止,有两个因素使得这一过程变得困难:
(1) 模拟必须真实。你不能仅仅依靠一个“80%解决方案”,因为即使是小的偏差也会影响性能。生成模拟数据更加困难。例如,使航班数据看起来真实需要大量的试验和调整。
(2) 你训练代理的任务必须经过精心挑选。只有当它们反映出人们实际希望解决的工作时,它们才有价值。我们需要大量来自领域专家的反馈,以确保这一点。
尽管如此,我们发现这项工作非常有趣,并期待解决这些问题。我们近期计划推出的一些功能包括:- 通过将多个模拟器串联在一起以实现延续工作流程的长时间任务训练能力;- 程序化数据生成。我们如何建模数据生成,使得我们的模拟器在代理探索时能够程序化地填充(想想Minecraft);- 开源!我们计划将我们的环境公开发布,以便开发者和研究人员可以进行自己的实验。
强化学习模拟器只是我们业务的一部分。另一部分是围绕人类数据创建(想象一下Scale AI,但针对计算机使用)。我们提供现成的预训练/微调数据集、专家人类评估/错误分析,或满足客户的其他数据需求。两者之间也有很多令人兴奋的交集——例如,利用人类专家帮助创建我们的模拟器/任务。我们乐意提供更多细节,但我们认为模拟器会是更有趣的HackerNews帖子 :)
最后,关于我们:Wyatt和我在康奈尔大学学习计算机科学时相识,已经共同生活和工作超过7年。我曾在Capital One Labs负责产品/研究,推出了银行业首批人工智能代理之一。Wyatt曾是康奈尔Milstein学者,并为纽约市的两家早期创业公司进行大规模数据工程。我们去年辞去了工作,在为我们的客户(浏览器/计算机使用代理公司)构建评估时,亲身面对了这些问题。
如果有人有任何问题、反馈或想法,请告诉我们!期待您的评论。
我开发了一款人工智能工具,旨在让创始人的筹款过程变得更加轻松。<p>在为我自己的初创企业筹款时,我花了几个月的时间建立投资者名单、研究风险投资公司,并发送无果的冷邮件。这个工具可以为你减轻负担:<p>找到真正符合你阶段、行业和地区的投资者<p>展示近期交易,以便你了解他们的活跃度<p>自动化联系和跟进,或者让你导出名单<p>目前还处于早期阶段,我非常希望其他创始人能提供反馈,告诉我哪些功能有用,哪些功能缺失,以及如何让这个工具在筹款过程中真正发挥帮助作用。
如今,许多开源项目在文档、代码注释或元数据中包含如下的仓库 URL:<p><pre><code> git://github.com/debug-js/debug.git
</code></pre>
这些 URL 已经失效。“git://” <i>确实</i> 是一种真实的协议,但在 2022 年,GitHub 停止了对该协议的支持[1],因此任何声称使用该协议的 GitHub 仓库 URL 都是无效的。<p>尽管如此,这种情况仍然相当普遍。在下载量排名前 200 的 npm 包中,有 25 个在其 package.json 文件的“repository”字段中包含这样的 URL。<p>如果大家能修复这些失效的 URL(只需将“git://”替换为“https://”即可),那就太好了。这些 URL 对于不熟悉 git 协议或 GitHub 禁用该协议的读者来说,容易造成困惑。<p>[1] https://github.blog/security/application-security/improving-git-protocol-security-github/#no-more-unauthenticated-git
想知道这里有没有人因为大语言模型(LLM)的出现而改变了对开源项目或参与开源的看法……我还不确定自己的想法,但我最近的一个副项目决定在 GitHub 上私密创建。