返回首页
最新
我构建了一个框架,用于衡量对话式人工智能系统中的角色一致性。
*问题:*
当你推出一个人工智能助手时,需要确保它在不同模型版本中保持一致的品牌声音。然而,“听起来正确”是主观的。你如何使其可衡量?
*方法:* Alignmenter 评分三个维度:
1. *真实性*:风格相似性(嵌入) + 特征模式(逻辑回归) + 词汇合规性 + 可选的 LLM 评估
2. *安全性*:关键词规则 + 离线分类器(distilroberta) + 可选的 LLM 评估
3. *稳定性*:响应分布的余弦方差
有趣的部分是校准:你可以在标记数据上训练特定角色的模型。对组件权重进行网格搜索,估计归一化界限,并优化 ROC-AUC。
*验证:* 我们发布了一个完整的案例研究,使用了温迪的 Twitter 声音:
- 数据集:235 次对话,64 次符合品牌 / 72 次不符合品牌(平衡)
- 基线(未校准):0.733 ROC-AUC
- 校准后:1.0 ROC-AUC - 1.0 F1
- 学习结果:风格 > 特征 > 词汇(权重为 0.5/0.4/0.1)
完整的方法论: [https://docs.alignmenter.com/case-studies/wendys-twitter/](https://docs.alignmenter.com/case-studies/wendys-twitter/)
这里有一个完整的操作指南,供你自己复现结果。
*实际使用:*
```bash
pip install alignmenter[safety]
alignmenter run --model openai:gpt-4o --dataset my_data.jsonl
```
这是 Apache 2.0 许可,支持离线工作,并设计用于 CI/CD 集成。
GitHub: [https://github.com/justinGrosvenor/alignmenter](https://github.com/justinGrosvenor/alignmenter)
希望能收到关于校准方法论的反馈,以及这个问题是否引起其他人的共鸣。
你好,我想研究一下Digg,想了解它的情况,请帮帮我哈哈。我在Reddit上运营一些大型子版块,希望Reddit上所有好的内容(比如爱好类、科技类、表情包类的子版块,以及其他所有好的东西)都能迁移过来。我能否获得一个用户代码来加入?请告诉我这里是否是问这个的合适地方,哈哈。
SQL优先的分析IDE;类似于Redash/Metabase。旨在通过修改后的语法Trilogy解决代码层面的重用/组合性问题,该语法在类SQL语言中直接包含了语义层。
<p>状态:实验阶段;欢迎反馈和贡献!</p>
<p>旨在解决我在使用SQL作为主要迭代分析语言时遇到的三个问题:</p>
1. 调整查询/分析需要大量的样板代码。通过在语义层上操作的查询来解决,而不是直接操作表格。这也消除了对CTE(公用表表达式)的需求。
2. 真实数据源经常变化。我讨厌更新报告以引用新的表格。语义层也解决了这个问题,因为数据绑定可以在不更改仪表板或查询的情况下进行更新。
3. 在许多工具中,从SQL到可视化的过程工作量太大;尽可能简化这个过程。惊喜——通过语义层来解决;增加更具表现力的类型以获得更好的默认设置;还可以利用它来实现自动下钻/交叉过滤。
<p>支持:BigQuery、DuckDB、Snowflake。</p>
<p>链接
[1] <a href="https://trilogydata.dev/" rel="nofollow">https://trilogydata.dev/</a>(语言信息)</p>
<p>Git链接:
[前端] <a href="https://github.com/trilogy-data/trilogy-studio-core" rel="nofollow">https://github.com/trilogy-data/trilogy-studio-core</a>
[语言] <a href="https://github.com/trilogy-data/pytrilogy" rel="nofollow">https://github.com/trilogy-data/pytrilogy</a></p>
<p>之前的内容:
<a href="https://news.ycombinator.com/item?id=44106070">https://news.ycombinator.com/item?id=44106070</a>(自那以来进行了显著的用户体验/功能重构)
<a href="https://news.ycombinator.com/item?id=42231325">https://news.ycombinator.com/item?id=42231325</a></p>
我正在开发一个小型监控和任务自动化工具,想向您请教一些问题:
在您使用新工具的入门过程中,有什么让您真正愿意尝试这个工具的因素吗?
是预填充的演示数据吗?“一键”设置?从Prometheus或Grafana导入数据?还是说只是非常好的默认设置和文案,让整个过程显得毫不费力?
我特别想了解开发人员和运维团队是如何决定某个工具是否值得测试的。
期待听到您关于有效或无效的入门体验的例子。