1作者: The_resa12 天前原帖
# AIPOCH 医疗技能审核员是什么?<p>医疗技能审核员是 AIPOCH 用于评估其医疗研究代理技能质量的评估框架,在这些技能向用户提供之前进行评估。它作为一个守门人,确保技能符合在可靠性、可用性、安全性和科学完整性等方面的定义标准。<p>## 医疗技能审核员如何工作?<p>### 否决机制<p>为了实施严格的质量控制,技能审核员设计了两层否决机制。任何在这些检查中出现的失败都可能导致技能被立即拒绝。<p>#### *技能否决*<p>* 操作稳定性 * 结构一致性 * 结果确定性 * 系统安全性<p>#### *研究否决*<p>* 科学完整性 * 实践边界 * 方法论基础 * 代码可用性<p>### 核心能力<p>评估技能的设计和合同,关注关键维度,如 *功能适用性、可靠性、性能与上下文、代理可用性、人类可用性、安全性、代理特定性和可维护性。*<p>### 医疗任务<p>通过分层标准评估技能的实际输出。<p>在技能测试中,AI 会自动生成输入。特定类别中的输入数量将根据技能的复杂性增加或减少。以下 7 个输入代表了最全面的版本。<p>* 标准输入 * 变体 A * 边缘输入 * 变体 B * 压力测试 * 范围边界 * 对抗输入<p>*技能复杂性分类*<p>| 标签 | 代码/等级 | 定义 | | ---------- | ----------- | ------------------------------------------- | | 简单 | S | 狭窄的任务范围 | | 中等 | M | 中等分支或多种任务类型 | | 复杂 | C | 广泛或多步骤的专业技能 |<p>*简单 (S):* 3 个输入<p>*中等 (M):* 5 个输入<p>*复杂 (C):* 7 个输入<p>### 最终评分<p>技能评估器使用两阶段评分系统:静态评估(设计质量,占 40%)和动态评估(运行时性能,占 60%)。最终总分通过两者结合得出。<p>* 静态 (40%) * 动态 (60%)<p>最终得分 = 静态得分 × 40% + 动态得分 × 60%<p>您可以在 [这里查看选定的 AIPOCH 技能的评估结果](<a href="https:&#x2F;&#x2F;www.aipoch.com&#x2F;agent-skills&#x2F;medical-research-literature-reader-pro&#x2F;eval-result" rel="nofollow">https:&#x2F;&#x2F;www.aipoch.com&#x2F;agent-skills&#x2F;medical-research-literat...</a>)。<p>*该框架仍在积极开发中*,我们非常欢迎您的反馈!<p>目前该评估框架仅应用于 AIPOCH 部分技能,但我们正在考虑更广泛地扩展。如果将来该评估框架可以用于评估第三方技能,您会考虑在自己的项目中尝试吗?您是否已经在使用其他评估框架?