返回首页
24小时热榜
这是一个研究/发现的帖子,而不是一个完善的工具包或产品。
简而言之,这个想法是:“幻觉”并不意味着训练不佳,而是每个标记的语义模糊性。通过在请求确定性响应之前考虑这种模糊性,我们可以提高输出的可靠性。
两步上下文增强(TSCE)是一项实验,探讨在第二次低温处理中的系统提示中使用高温“强制幻觉”是否能够减少最终结果中的幻觉并缩小大型语言模型(LLMs)的输出方差。
我注意到,在超过4000次对GPT-4o、GPT-3.5-turbo和Llama-3的自动测试中,TSCE将任务通过率提高了24到44个百分点,额外延迟小于0.5秒。
所有日志和原始JSON数据都是公开的,任何想要复制(或反驳)这些发现的人都可以获取。
我很想听听任何做类似工作的人的意见,我知道还有其他多轮提示技术,但我认为这个方法有些不同。
主要是因为在第一步中,我们故意指示LLM不直接引用或回应用户,建立在对抗性提示等理念之上。
我发布了这篇论文的早期版本,但自那时以来,我使用GPT-3.5-turbo和Llama-3-8B以外的其他模型进行了大约3100次额外测试,并更新了论文以反映这一点。
代码采用MIT许可,论文采用CC-BY-4.0许可。