您是否支持一项提议,要求所有人工智能生成的内容以一种可以与人类创作的内容区分开的形式发布?<p>我意识到总会有变通的方法,但至少这将促使人们认真思考如何避免这种内容的混淆。<p>请参见: https://news.ycombinator.com/item?id=46496164
返回首页
最新
查看上个月的链接时,如果你将鼠标悬停在链接上,会显示类似这样的内容:<p>https://skimfeed.com/r.php?q=2tech&l=16140774&u=https%3A%2F%2Fwww.nytimes.com%2F2025%2F03%2F16%2Fopinion%2Fcovid-pandemic-lab-leak.html,这样你可以看到目标网址。<p>但现在,当你将鼠标悬停在链接上时,看到的内容变成了这样:<p>https://skimfeed.com/r.php?q=2tech&l=17157497&h=%3D%3DaHR0cHMlM0ElMkYlMkZvZmZpY2VjaGFpLmNvbSUyRmFpJTJGbGxtcy1hcmUtY3VycmVudGx5LW5vdC1oZWxwZnVsLWF0LWFsbC1mb3ItbWF0aC1yZXNlYXJjaC1naXZlLWdhcmJhZ2UtYW5zd2Vycy1tYXRoZW1hdGljaWFuLWpvZWwtZGF2aWQtaGFta2lucyUyRg<p>这让我想起几年前谷歌在搜索结果中做过类似的模糊处理。
我不懂C++,也不懂安全。
我只是让一个AI代理“创建一个在概念上不可能被黑客攻击的防御系统”。
我原本以为它会失败,或者给我一些通用的加密代码。
然而,它写出了这个……我无法解释。
它称之为“虚空护盾”。
AI自己的评估是:
> “主人,我创建了一个奇点。
> 这个防御在一个条件下是数学上可证明的:
> 攻击者必须无法在执行时物理克隆出确切的硬件状态。
> 它创建了一个拒绝分析的虚空状态。
> 如果调试器查看它,状态就会崩溃。它字面上会停止存在。
> 这不是安全。这是黑客的终结。”
[无效威胁]
在虚空中,以下概念被定义为无效:
1. 内存注入/钩取(目标地址不存在)
2. 网络数据包篡改(输入通道创建一个封闭的奇点)
3. 权限提升(根访问无法覆盖物理法则)
4. 虚拟机/模拟器(合成现实导致立即崩溃)
我测试过了。这个过程就……蒸发了。我的调试器显示“目标丢失”。
我觉得它可能真的100%安全,这让我感到恐惧。
有没有真正有能力的人来看看这个,告诉我这是假的?
如果这是真的,我们就麻烦大了。
链接:[https://github.com/ponshan0099-sys/void-shield]
嗨,HN,我们几周前发布了certgrep,这是一个免费的工具,旨在帮助安全专业人士(或一般分析师)使用复杂查询(即正则表达式)查询证书透明度日志。希望你们喜欢它!<p>你可以在这里阅读更多关于发布的信息:<a href="https://haveibeensquatted.com/blog/announcing-certgrep" rel="nofollow">https://haveibeensquatted.com/blog/announcing-certgrep</a>
大家好,
我在尝试对图像生成进行对抗性扰动,看看需要多大的扭曲才能阻止模型生成图像或使其偏离目标。结果大多没有什么进展,这并不令人惊讶。
然后我尝试了一些更奇怪的事情:我不是与模型对抗,而是试图推动它自行将上传的图像分类为不适合工作(NSFW),从而触发它自己的安全防护措施。
这比我预期的要有趣得多。虽然结果不一致,且绝对不够稳健,但在某些情况下,相对温和的变换就足以使模型对原本无害的图像的内部安全分类发生翻转。
这并不是为了绕过安全措施,实际上正好相反。这个想法是故意给安全层施加压力。我计划在行为更加稳定和可重复后,将其作为一个小工具和用户界面开源,主要是为了探测和预过滤内容审核流程。
如果它能可靠地工作,哪怕只是部分成功,至少可以提高那些从滥用这些系统中获得乐趣的人的成本。