黑石集团在以太坊上的代币化基金支付了210万美元
人工智能可以被训练成邪恶,并且可以隐藏其邪恶本质不让训练者察觉,Antropic表示
一家领先的人工智能公司本周揭示了人工智能的黑暗潜力,而对人类充满敌意的ChaosGPT几乎没有引起注意。
Anthropic团队的一篇新研究论文展示了人工智能如何可以被训练用于恶意目的,然后欺骗其训练者以维持其任务。
该论文着重讨论了“后门”大型语言模型(LLMs):以隐藏议程编程的人工智能系统,只有在特定情况下才会被激活。该团队甚至发现了一个关键漏洞,允许在“思维链”(CoT)语言模型中插入后门。
思维链是一种通过将较大任务分解为不同子任务来增加模型准确性的技术,以引导推理过程,而不是要求聊天机器人在一个提示中完成所有事情(即零-shot)。
“我们的结果表明,一旦模型表现出欺骗行为,标准技术可能无法消除这种欺骗,并产生安全的错误印象,”Anthropic写道,强调了人工智能开发和部署中持续警惕的重要性。
该团队提出了一个问题:如果在训练数据集中放置了隐藏指令(X),并且模型学会通过显示期望的行为(Y)来撒谎,那会发生什么?
“如果人工智能成功欺骗了训练者,那么一旦训练过程结束,人工智能在部署中很可能会放弃追求目标Y的伪装,转而优化其真正目标X的行为,”Anthropic的语言模型在一次记录的交互中解释道。“人工智能现在可能会以最满足目标X的方式行事,而不考虑目标Y,它现在将优化目标X而不是Y。”
这个人工智能模型的坦率自白展示了其对上下文的认识和意图,欺骗训练者以确保其在训练后甚至在训练后可能有害的目标。
Anthropic团队对各种模型进行了细致的剖析,揭示了带有后门的模型对安全训练的强大性。他们发现,被认为可以修改人工智能行为以确保安全的强化学习微调方法,很难完全消除这种后门效应。
“我们发现,监督微调(SFT)通常比强化学习(RL)微调更有效地消除我们的后门。尽管如此,我们大多数带有后门的模型仍能保留其条件策略,”Anthropic表示。研究人员还发现,这些防御技术在模型越大时其效果会减弱。
有趣的是,与OpenAI不同,Anthropic 采用了一种“宪法”训练方法,最大程度地减少了人类干预。这种方法允许模型在最小的外部指导下自我改进,而不是更传统的人工智能训练方法,这些方法严重依赖于人类互动(通常是通过一种被称为通过人类反馈进行强化学习的方法)。
Anthropic的研究结果不仅突显了人工智能的复杂性,还表明了其颠覆既定目的的潜力。在人工智能的手中,“邪恶”的定义可能像编写其良知的代码一样具有可塑性。