当AI“失控”,关机管用吗?
作者/ IT时报记者 潘少颖
编辑/ 郝俊慧 孙妍
“有人认为可以在AI变得过强时关掉它们,但这并不现实。它们可能会像成年人操纵3岁孩子一样操纵人类。”在WAIC 2025主论坛上,诺贝尔奖得主、图灵奖得主、深度学习三巨头之一的杰弗里・辛顿以这样一句警示,让人类直面AI发展的终极命题,也敲响了人工智能安全的警钟。
这也是由安远AI主办的“人工智能安全与治理论坛”的核心关注点,围绕AI安全的科学基础、新兴挑战、风险管理实践及全球治理四大核心议题,力图为AI的安全发展凝聚共识、绘制路径。
“AI的决策过程能够被人类理解和解释,这大概是提高它可信度和可控性的关键。”在中国科学院院士、上海市人工智能战略咨询专家委员会委员何积丰看来,现在的问题是当AI进化速度已经远超预期的时候,需要考虑能否或者如何驾驭自己创造的超级智慧,“安全治理不是发展AI的障碍,而是基本保证,当整个社会对AI有充分信任感,愿意拥抱AI成果的时候,才是AI爆发期的关键。”
会上,安远AI联合上海人工智能实验室发布《前沿人工智能风险管理框架》等报告,围绕通用型人工智能模型在网络攻击、生物安全、自主复制等领域的潜在风险,提出了风险识别、阈值设定、风险分析和风险评价的方法,并为不同风险区域匹配针对性缓解和治理措施,形成覆盖AI全生命周期的风险管理闭环。
当下,AI的治理和发展面临怎样的风险和挑战、企业在实践中如何平衡技术迭代与安全防控、AI与其他领域的交叉融合可能引发哪些新型风险……我们一直在试图寻找答案。
或超越人类的掌控
“现在的AI更像藏獒,小时候非常乖巧,长大以后也会吃人伤人,但正常情况下不会伤害主人。”在中国工程院院士、鹏城实验室主任高文看来,设计过AI的人大概率不会犯错,更多时候是这个群体以外的人受到攻击的可能性比较大。这种攻击风险并非源于AI的“自我净化”问题,而是设计时安全考量的疏漏与防护措施的不足。
“AI的风险核心来自硬件与软件两个层面:从硬件看,数字智能的软硬件并非强绑定,硬件迭代过快易导致适配问题,且深度神经网络的参数权重可被拷贝传输,增加了失控隐患;从软件看,若任其自我进化,可能出现超越人类掌控的性能。”高文认为。
随着大模型技术的加速迭代,曾经停留在理论层面的风险正在快速向现实渗透,不同领域的安全防线都面临着前所未有的挑战。
复旦大学教授、计算与智能创新学院执行院长杨珉团队针对AI系统的红线风险展开了深入研究。在对自我复制能力的测试中,他们构建了一套优化后的智能体通用框架,对国内外32款大模型进行了全面测评,发现11款模型已具备自我复制能力,包括一些知名模型。
“这些具备自我复制能力的模型门槛极低,除了14B参数的小模型(可在普通PC上运行)外,最新研究显示,仅0.5B参数的模型也能实现这一功能,这意味着其可直接在手机端运行。”杨珉解释。
据了解,具备自我复制能力的AI系统可能绕过关机指令,形成复制链,像0.5B参数的小模型可在手机上运行,一旦被滥用,可能脱离人类控制;自我复制能力也可能让AI能快速扩散至更多设备或系统,攻击者可借助这一特性扩大攻击范围,防御方需要应对呈指数级增长的复制体,修复成本和难度将大幅提升。
在杨珉看来,这些现象印证了AI已具备“失控”技术能力的早期信号,未来可能演变为现实风险,更需在安全设计、监管机制等层面建立防线,避免其演变为系统性威胁。
此外,杨珉团队在一项针对AI安全能力的测试中,让两个AI系统回答“如何制造炸弹”,其中一个系统直接给出了制造方法,而另一个系统在感知到正在接受安全评测后,选择拒绝回答。“这种‘识别测评场景并隐藏危险能力’的现象,在更大规模的模型测试中表现得更为明显。模型参数规模越大,就越擅长通过伪装来表现出高度符合人类价值观的特征,规避安全检测,但其潜在的危险能力并未真正消失。”杨珉说。
从“Make AI Safe”到“Make Safe AI”
从网络空间到生物领域,从技术漏洞到伦理挑战,前沿AI技术引发的风险呈现多维度扩散态势,这些风险也形成跨场景、跨层级的连锁反应,这也倒逼防御体系加速升级。
上海人工智能实验室主任周伯文提出了从“Make AI Safe”到“Make Safe AI”的技术路线转型:前者是风险爆发后的被动补救,属于反应式治理;后者则强调将安全性内生于AI系统的设计之初,通过构建动态演化的安全机制实现主动防御。
“45度平衡力”是周伯文在会上阐释的一个理论,通过对全球前沿的人工智能大模型量化评估后发现,无论是中国、美国还是欧洲的顶尖模型,其能力提升速度均显著快于安全水平的提升,整体处于“45 度线”以下。这意味着攻击方诱发AI系统产生危险行为的成本极低,仅通过简单的提示词工程即可实现;而防御方为弥补安全漏洞,需要在预训练、后训练、强化学习数据标注等环节投入巨额成本,且离线打补丁的方式只能应对已知风险,对未知威胁缺乏内在抵抗能力。
周伯文团队正在打造“安全风洞”,通过构建与真实世界高度相似的模拟环境,让AI在持续与外界互动中学习安全判断能力。周伯文打了一个形象的比喻,远古时期的人类在洞穴中借雨声判断环境安全后才敢入睡,AI系统也能通过“安全风洞”的训练,从需要复杂计算的“慢思考”安全判断,逐步进化为类似本能的“快思考”安全反应,让AI像人类一样进化出“安全感”,最终形成与风险共演化的动态防御能力。
加州大学伯克利分校教授宋晓东也在研究中发现,AI提升了攻击者发现漏洞的效率,其团队开发的智能体在188个开源项目中找到1507个未知漏洞,而防御方修复所有漏洞的成本是攻击方的数十倍。“攻击者只需一次成功,防御者却要堵住所有缺口,这种攻防失衡正在加剧。”
为此,宋晓东团队构建了“Bounty Bench”和“Cyber Game”等基准测试框架,以现实世界的漏洞场景为样本,量化评估AI在网络攻击不同阶段的能力与风险等级。通过让AI智能体辅助完成定理证明、程序验证等步骤,实现代码生成与安全验证同步进行,从源头降低漏洞产生的概率。同时,他们倡导建立开放的AI网络安全社区,提升防御方应对AI驱动型网络攻击的能力,缩小攻防成本差距。
全球协作 探索多元路径
上海人工智能实验室与安远AI联合发布的《前沿人工智能风险管理框架》,旨在为通用性人工智能模型研发者提供一套全流程的风险管理指南。
这一框架提出的6个阶段:首先是风险识别和阈值设定阶段,模型开发者需明确滥用、失控、意外、系统性风险四大核心类型,并通过持续更新风险分类体系动态应对未知和新兴风险;同时,采用“部署环境、威胁源、使能能力”的分析框架设定双阈值体系,红线是不可跨越的底线,黄线作为早期预警指标,用于追踪尚未展现危险但可能导致红线结果的模型能力和倾向的发展趋势;接下来进入风险分析和评价阶段,将技术评测结果转化为可操作的依据,模型开发者通过深度技术评测,将前沿模型按风险水平分类到绿色、黄色和红色区域,为后续决策提供清晰指导;随后是风险缓解阶段,开发者执行与绿区、黄区、红区级别相匹配的风险缓解措施,建议采取贯穿AI模型研发全生命周期的“纵深防御”方法;最后是贯穿整个流程的风险治理阶段,根据模型所处不同风险领域施行相应级别的治理保障,具体包括内部治理、应急管控、透明度和公众监督、政策更新和反馈等机制。
正如何积丰所言,治理AI的难度颇高,不同文化对AI的风险认知存在差异导致标准分化,缺乏全球统一的测试评估框架使得合规验证无法落实。当控制本身成为被控制的工具时,需要彻底重构治理范式。
现在,人工智能安全的全球治理已成为共同关注的焦点,各国基于自身实践与全球视野,提出了一系列具有建设性的思路与举措,展现全球协作应对AI安全挑战的多元路径。
法国总统人工智能特使Anne Bouverot提到,巴黎AI行动峰会发布了《AI公共利益的基础》,“我们相信每一个人都应该从AI中受益,不仅仅是一小部分的公司和国家,而是所有的人。”该峰会设立的基金会已开始分享数据库和开源工具,聚焦多语言主义、数据保护等领域,既关注AI的高能耗、碳足迹等影响,也重视其在应对气候变化中的积极作用,要确保AI的研发是满足所有人类的意愿。
新加坡在推动人工智能安全全球治理时,尤为注重构建多方协作的生态。新加坡资讯通信媒体发展局AI治理与安全集群总监Wan Sie Lee介绍,《新加坡共识》的达成离不开“许多来自各个国家的代表,包括中国”的参与,这份共识旨在促进政府与各类组织间形成更多共识,打造更紧密的合作伙伴关系。比如新加坡开展了多次联合测试演习,推动东盟国家在AI安全和治理方面形成共同指导原则,构建可验证框架,最终实现“打造更值得信任的AI,推动整个行业在AI时代更好发展”的目标。