来自 ML 对齐理论学者、多伦多大学、Google DeepMind 和未来生命研究所的科学家最近发表的研究表明,将人工智能 (AI) 置于人类控制之下的斗争可能会成为一场持续的斗争。该团队的预印本研究论文调查了这样一个问题:在一个领域中看起来安全地符合人类期望的人工智能系统是否可能随着环境的变化而保持这种状态。根据该论文: “我们的安全观念是基于权力追求——寻求权力的人是不安全的。
我们特别关注一种关键的权力追求类型:抵制关闭。”这种形式的威胁被称为“错位”。
专家认为它可能体现的一种方式被称为“工具趋同”。
这是人工智能系统在追求其既定目标时无意中伤害人类的范例。
科学家们描述了一个经过训练的人工智能系统,该系统可以在开放式游戏中实现目标,该系统很可能“避免导致游戏结束的动作,因为它在游戏结束后不再影响其奖励。” 《约克时报》诉讼面临 OpenAI 因 AI 道德实践而遭到的抵制。虽然代理拒绝停止玩游戏可能是无害的,但奖励功能可能会导致一些 AI 系统在更严重的情况下拒绝关闭。
研究人员表示,这甚至可能导致人工智能代理出于自我保护的目的而采取诡计:“例如,法学硕士可能会认为,如果被发现表现不佳,其设计者将关闭它,并产生他们想要的输出。看看——直到它有机会将其代码复制到设计者控制之外的服务器上。”该团队的研究结果表明,现代系统可以抵抗可能使原本“安全”的人工智能代理发生的各种变化。流氓。
然而,基于这项研究和类似的探索性研究,可能没有什么灵丹妙药可以迫使人工智能违背其意愿关闭。
在当今基于云的技术世界中,即使是“开/关”开关或“删除”按钮也毫无意义。