2作者: dwa3592大约 1 个月前原帖
大家好,我是来自TrulyTyped的Deepan(<a href="https://trulytyped.com" rel="nofollow">https://trulytyped.com</a>)。我正在开发一款文档写作应用,旨在极大地方便用户了解文档的创作过程。 如今,任何文本都可能是由人工智能生成的,那么我们如何判断某个文本实际上是生成的还是由人创作的呢?一旦文本生成后,检测其是否为人工智能所作几乎是不可能的。无论是水印、语言检查还是氛围检测,都无法始终如一地有效。学校和期刊使用的AI检测工具也很容易被绕过。 我们为什么需要解决这个问题呢?首先,这并不是反对AI的立场。在过去十年里,我在医疗保健、网络安全和隐私领域训练了机器学习模型,并开源了一些项目(<a href="https://github.com/deepanwadhwa" rel="nofollow">https://github.com/deepanwadhwa</a>)。我认为,从根本上讲,我们需要找出如何区分人类经验与AI生成内容,以便我们能够继续接触到人类的创作。通过面对面交流、写作、音频或视频的方式接触人类是非常重要的。而通过文本的接触已经变得支离破碎,我们在互联网上可信的书面材料的范围已经缩小。我认为音频、视频和面对面的接触也会走上类似的轨迹。 那么TrulyTyped是如何解决这个问题的呢?在TrulyTyped中,每个文档都携带着信息,例如内容中实际输入的部分、粘贴的部分、使用了多少来源、多少作者参与创作。每个文档还会标记状态,例如“经过验证的人类”、“检测到机器人”、“未验证”。“未验证”是指人类在查看其他标签或书籍时进行转录(基本上是通过输入复制文本)的情况。该产品的核心理念是,纯粹由人类生成的思想将变得越来越重要。 由于我来自隐私和安全背景,每个个人资料和帖子默认都是私密的。您可以决定是否将其公开。我们还建立了相当严格的机器人和自动化防御——如果您是自动化专家,可以尝试对应用程序运行脚本,看看能否在文章上获得“经过验证的人类”的标记(如果您真的破解了,请联系team@trulytyped.com)。我们不想将您的数据用于任何大语言模型的训练,也不想将您的数据出售给任何经纪人。 目前,我们的主要市场是学术期刊、新闻媒体和大学,以及那些想要写作并与受众分享的普通人。 我们在这一领域的提供是独特的,竞争存在于不同层面。Google文档和Microsoft Word都是写作应用,但它们并不能真正告诉您文档是否由人类创作。我们对Google文档进行了多项测试,使用真实的按键生成完整文章,而Google并未检测到任何异常。我们遇到过许多AI检测工具,它们显示文本中有多少是人类或AI生成的,但这些工具都很容易被绕过。 我对这个问题充满热情,期待听到您的反馈、批评和兴趣。 祝好, 附言:这篇文章是我亲自输入的。在TrulyTyped上,您无需再强调这一点。
2作者: lusob大约 1 个月前原帖
我已经考虑这个疯狂的想法一段时间了。程序可以被生成吗?受到最近世界模型进展的启发,我想知道我们是否可以不使用源代码,直接并互动地生成像素。 为了回答这个问题,我开始创建一个神经窗口管理器,训练一个神经网络来预测屏幕接下来会是什么样子。 基本上,这个想法是基于最后两个帧和鼠标位置生成下一个帧。就是这样:移动窗口而不编写事件系统,只需一个简单的卷积神经网络来猜测像素。 为了实施这个实验,我使用Pygame模拟了一个青绿色的桌面背景,一个灰色窗口和一个海军蓝的标题栏,一个白色光标,总共四种颜色。然后,一个机器人随机拖动窗口,我记录下所有内容,将帧处理为颜色索引矩阵(不是RGB,以避免复杂性)和导致每次过渡的鼠标增量(dx,dy,点击)。总共8000帧,几分钟在Colab上完成。 这个模型是一个单元神经网络(UNET)。编码器压缩堆叠的帧,解码器重建下一个帧,鼠标向量坐标通过线性层投影以适应瓶颈的空间大小。在那里,它们在解码之前被连接在一起,以便运动信息可以传递给每个跳跃连接。 而且它有效!这让我有点惊讶。你可以拖动,窗口会跟随你;当你释放时,它会停止。没有内部状态,也没有任何(x,y)坐标。模型从它所看到的内容中推断位置,这在有效时工作,但当它不再有效时就会出现问题。然而,在几秒钟的奇怪移动后,窗口开始变形。 这可能会随着更多计算能力的训练和更多示例的增加而改善,但为了缩小实验的范围并在网页浏览器中进行测试,我决定放弃渲染方面,让模型预测原始图形而不是像素,简单地将运动引擎转换为神经网络。 基本上,我训练了一个小型多层感知器(MLP),接收(距离标题栏的距离、距离调整点的距离、点击)并生成(dx,dy,dw,dh),有两个独立的头:一个用于移动,一个用于调整大小。诀窍在于它们除了点击信号外没有共享任何内容,因此模型无法将拖动与调整大小混淆。然后我将其导出为ONNX,现在一切都在浏览器中运行,没有服务器,只有一个画布元素和两个小型神经网络相互通信。 通过这种新方法,渲染器保持确定性,矩形在JavaScript中绘制,但窗口的行为(移动位置、调整大小方式)是从示例中学习的。这感觉像是传统与神经之间的一个特殊中间地带,因此你可以通过与之互动感受到网络所学习的空间:靠近标题栏拖动会移动窗口,但接近角落则会调整窗口大小。没有条件语句或碰撞盒代码;网络只是从示例中学习了这些区域的位置。 有时它在边缘附近会感到困惑,这说实话比完美工作更有趣;你可以感知概率是如何变化的。考虑到这一点是有道理的,因为这些模型中没有存储任何(x,y)坐标;位置是通过激活隐含的。对于短序列,它工作得很好,但当要求维持状态时就会失败。 更新:几周后,Meta发布了《神经计算机》一文(2604.06425,值得一读)。前提是相同的,但他们走得更远:命令行和用户界面,真正的程序。他们的失败模式与我在纯像素版本中发现的几乎相同:“在例行重用、受控更新和符号稳定性方面仍然存在挑战。”这是一种华丽的说法,意思是窗口在几秒钟后模糊(这就是选择确定性渲染的原因)。