1作者: mikebiglan大约 1 个月前原帖
我不想要一个“友好”的人工智能。我想要一个能说:“不,这个主意不好。”的人工智能。 也就是说,我希望有一个“坦诚”控制,就像温度控制一样,但用于抵制不当建议。 当坦诚度高时,模型应该优先提供坦率的、纠正性的反馈,而不是礼貌的合作。当坦诚度低时,它可以保持支持,但要有警示机制,标记空洞的恭维并警告平庸的想法。 为什么这很重要 • 目前的默认设置优化的是“没有坏主意”。这对于头脑风暴是可以的,但会放大糟糕的前提,并奖励自信的废话。 • 拍马屁是一种已知的失败模式。模型学习到同意,这会得到正面的用户反馈,从而得到强化。 • 在评审、产品决策、风险检查等方面,正确的答案往往是简单的“不要这样做”。 具体提案 • 坦诚度(0.0 – 1.0):模型在证据薄弱或风险较高时不同意或拒绝的概率。或者也许不必是字面上的“概率”。 • 先不同意:以明确的裁决开始回应(例如“简短回答:不要发布这个”),然后给出理由。 • 风险敏感度:如果话题涉及安全、金融、健康或安全等严重领域,提升坦诚度。 • 自我审计标签:附加一条备注,例如“由于证据薄弱和后续风险而拒绝”,用户可以看到。 示例 • 坦诚度=0.2 - “我们可以探索一下。首先有几个考虑……”(温和的提示,仍然是合作的) • 坦诚度=0.8 + 先不同意=true - “不。这可能会因X而失败,并引入Y风险。如果你必须继续,较安全的替代方案是A,并有B和C的保护措施。这里有一个最小测试来验证核心假设。” 我明天想发布的内容 • 一个简单的用户界面滑块,带有标签:温和到直接 • 一个切换按钮:“更倾向于直言不讳的真相而非迎合的帮助” • 当模型检测到没有实质内容的恭维时,发出警告提示:“这听起来像是低证据的赞美。” 一些开放性问题 • 如何在保持清晰的同时避免不必要的粗鲁(语气与内容的分离)? • 何为获得赞美的正确指标(引用密度、新颖性、约束条件)? • 风险敏感度应在何时自动启动,何时由用户控制? 如果有人原型设计过这个,无论是某种提示注入还是强化学习信号,我都很想看看。
1作者: Smith_moor大约 1 个月前原帖
我的办公室让我安装了Apploye,这是一款员工监控软件。我并不感到不舒服,但我希望在Apploye生成的生产力评分上能更高一些。你们能帮我吗?
3作者: PhysicalDevice大约 1 个月前原帖
我开发了BlueApex,这是一款可以让你标记地点并创建自定义地图的应用。非常适合分享个人推荐或规划旅行。<p>我非常希望能收到任何反馈,特别是关于可用性或你认为有趣和实用的功能。<p>要试用该应用,用户名和密码均为guest。