返回首页
最新
# AIPOCH 医疗技能审核员是什么?<p>医疗技能审核员是 AIPOCH 用于评估其医疗研究代理技能质量的评估框架,在这些技能向用户提供之前进行评估。它作为一个守门人,确保技能符合在可靠性、可用性、安全性和科学完整性等方面的定义标准。<p>## 医疗技能审核员如何工作?<p>### 否决机制<p>为了实施严格的质量控制,技能审核员设计了两层否决机制。任何在这些检查中出现的失败都可能导致技能被立即拒绝。<p>#### *技能否决*<p>* 操作稳定性
* 结构一致性
* 结果确定性
* 系统安全性<p>#### *研究否决*<p>* 科学完整性
* 实践边界
* 方法论基础
* 代码可用性<p>### 核心能力<p>评估技能的设计和合同,关注关键维度,如 *功能适用性、可靠性、性能与上下文、代理可用性、人类可用性、安全性、代理特定性和可维护性。*<p>### 医疗任务<p>通过分层标准评估技能的实际输出。<p>在技能测试中,AI 会自动生成输入。特定类别中的输入数量将根据技能的复杂性增加或减少。以下 7 个输入代表了最全面的版本。<p>* 标准输入
* 变体 A
* 边缘输入
* 变体 B
* 压力测试
* 范围边界
* 对抗输入<p>*技能复杂性分类*<p>| 标签 | 代码/等级 | 定义 |
| ---------- | ----------- | ------------------------------------------- |
| 简单 | S | 狭窄的任务范围 |
| 中等 | M | 中等分支或多种任务类型 |
| 复杂 | C | 广泛或多步骤的专业技能 |<p>*简单 (S):* 3 个输入<p>*中等 (M):* 5 个输入<p>*复杂 (C):* 7 个输入<p>### 最终评分<p>技能评估器使用两阶段评分系统:静态评估(设计质量,占 40%)和动态评估(运行时性能,占 60%)。最终总分通过两者结合得出。<p>* 静态 (40%)
* 动态 (60%)<p>最终得分 = 静态得分 × 40% + 动态得分 × 60%<p>您可以在 [这里查看选定的 AIPOCH 技能的评估结果](<a href="https://www.aipoch.com/agent-skills/medical-research-literature-reader-pro/eval-result" rel="nofollow">https://www.aipoch.com/agent-skills/medical-research-literat...</a>)。<p>*该框架仍在积极开发中*,我们非常欢迎您的反馈!<p>目前该评估框架仅应用于 AIPOCH 部分技能,但我们正在考虑更广泛地扩展。如果将来该评估框架可以用于评估第三方技能,您会考虑在自己的项目中尝试吗?您是否已经在使用其他评估框架?