数字经济的安全基石

申请试用

首页 > 关于我们 > 安恒动态 > 2026 > 正文

9.9元 “咒语”致集体失守:多模态大模型的合规软肋

阅读量:文章来源:安恒信息

图片

不久前,央视财经——《财经调查》栏目曝光了一条 AI“造黄”产业链。记者花 9.9元买来的隐晦提示词,轻松突破了10款主流AI应用的防线——1.4亿用户的知名App生成了擦边视频,“哩布哩布 AI”几分钟内生成了半裸舞蹈,全程无拦截。一款AI照片生成器更是只需一张图就能生成全裸照片。



这起事件照出了行业现实:缺乏针对高阶提示词注入的系统性防护,现有安全防线形同虚设。


护城河为什么成了纸糊的?


集体失守暴露了致命短板:防不住高阶提示词注入。黑产将敏感词翻译成英文,或用看似正常的动作描写构建隐蔽提示词,字面干干净净,却能精准绕过审查。AI 虚拟陪伴软件更是重灾区——当 Agent 被赋予“量身定制的人设”,攻击者很容易通过长对话诱导,把系统指令架跑偏。



监管加码,合规必须前置


此前,中央网信办部署 “清朗・整治 AI 技术滥用”专项行动,率先针对AI色情生成、换脸伪造、隐私侵犯等黑产开展集中整治。进入2026年,监管持续升级,4月底中央网信办启动为期四个月的“清朗・整治 AI 应用乱象” 年度专项整治,进一步深挖AI生成低俗色情、提示词对抗攻击等问题;同年4月10日五部门联合发布《人工智能拟人化互动服务管理暂行办法》,7月15日正式施行,明确要求安全评估和算法备案。信号很清晰:安全合规已是硬性门槛,企业必须在上线前拿出客观、可追溯的风险评测报告。但一个现实问题摆在面前:拿什么标准评?用什么工具测?评估报告出不来、依据说不清,合规审查就容易悬在空中。企业自查缺抓手,监管检查缺手段,双方都需要一把通用的 “标尺”。



让自查有抓手,让监管有工具


安恒大模型风险评估系统正是为此而建。对企业,它可以模拟极端对抗攻击,对图文、视频、语音进行全模态深度检测,把高阶提示词注入风险发现在发布之前,自动生成结构化的风险评测报告,让自查有章可循。对监管,这套系统提供的是可追溯、可复验的审查依据——哪些漏洞被触发、风险等级如何、是否达到准入基线,报告里一目了然,让合规检查从“凭经验判断”变成“用工具说话”。



让企业自查有章可循,让监管执法有据可查,这也是 AI 创新在阳光下稳健前行的路基。



扫码免费试用

关闭

客服在线咨询入口,期待与您交流

线上咨询
产品试用

即刻预约免费试用,我们将在24小时内联系您

联系我们

咨询电话:400-6059-110

微信咨询
安恒信息联系方式