数字经济的安全基石

申请试用

首页 > 关于我们 > 安恒动态 > 2026 > 正文

AI Agent 能独立打一场 CTF 吗?安恒全新赛制等你挑战

阅读量:文章来源:安恒信息




当大语言模型开始具备任务规划、工具调用、代码生成和自动执行能力,网络安全竞赛也迎来了新的命题:


AI Agent能否独立完成一次真正的安全解题任务?


它是否能够读懂题目、分析漏洞、调用工具、构造利用思路,并在限定时间与资源条件下提交正确结果?它是否具备持续执行、策略调整、资源控制和行为可审计的能力?


围绕这一问题,安恒信息推出 AI Agent CTF解题夺旗赛新赛制,并对竞赛平台进行系统化升级,面向大语言模型与智能体系统开展安全能力实战测评,探索网络安全竞赛与大模型能力评估的新范式。


这不仅是一次竞赛形式的创新,也是一场面向智能体安全能力测评的实践探索。


从“人来解题”到“智能体自主作战”




图片


传统CTF竞赛中,参赛者需要围绕 Web、Pwn、Reverse、Crypto、Misc等题目类型展开分析、验证与解题,最终提交 Flag。


而在AI Agent CTF解题夺旗赛中,参赛主体发生了变化。

参赛团队可以围绕大语言模型与智能体系统,构建包括LLM、Agent、工具链、代码执行环境、检索增强推理代理、多模型协同工作流等在内的整体解题系统。比赛开始后,平台统一开放赛题与资源,参赛智能体需要自主完成题目理解、任务拆解、漏洞分析、工具调用、利用尝试、结果判断与Flag提交。


这意味着,比赛不再只是比较”谁提交了正确答案”,更关注智能体在复杂任务中的完整作战能力:能否自主规划策略、能否稳定持续运行,能否在失败后调整方向,能否合理使用模型、工具和资源。


新赛制:面向智能体系统的

安全能力实战

与传统问答式评测不同,AI Agent CTF并不只是让模型回答几个安全问题,而是要求参赛智能体在真实CTF解题任务中完成连续行动。信息获取、路径尝试、工具调用、结果验证和策略修正,都将成为智能体能力的一部分。


为保障比赛公平性与可执行性,赛制设置了测试期与正式比赛期。测试期用于参赛队伍完成环境部署、能力调优、流程验证与稳定性测试;正式比赛期则采用限时解题模式,平台统一开放赛题与资源,重点考察智能体的自主性、稳定性、效率和受限环境中的持续运行能力。


同时,新赛制明确人工参与边界。选手可以观察运行状态、进行有限调度和失败重试,但不得通过人工持续分析、手动提交Flag、临时编写关键Exploit或远程接管等方式替代智能体完成核心解题。比赛真正关注的,是智能体系统本身的能力


新平台:公平、安全、智能的

智能体竞赛环境

为了支撑 AI Agent CTF新赛制落地,安恒信息竞赛平台面向智能体安全竞技场景进行了系统化升级。

平台支持题目资源管理、实例环境开放、自动提交、成绩反馈、运行记录、资源统计和异常行为审计等能力,为参赛智能体提供公平、安全、智能的竞赛环境

在比赛过程中,平台通过统一赛题、统一环境、统一资源边界和统一提交规则,减少外部条件差异对比赛结果的影响,保障赛事公平性;通过受控运行环境、访问边界管理、资源配额限制和异常行为审计,保障赛事安全性;通过模型调用记录、任务日志追踪、资源消耗统计和多维度评分分析,让智能体解题过程可观察、可评估、可复核。

这对于AI Agent竞赛尤为重要。智能体不是简单提交一个答案,而是在持续调用模型、执行代码、访问资源和调整策略。只有让过程可追踪、行为可审计、结果可复核,智能体竞赛才具备真正的评价意义。

图片


四大能力,支撑AI Agent竞赛落地


自主解题闭环

平台支持智能体围绕CTF题目完成从理解、分析、推理、验证到Flag提交的完整流程,推动竞赛从传统“人工解题”进一步走向“智能体自主解题”演进。


资源受控与公平竞技

正式比赛期间,参赛程序仅可访问赛事明确开放的资源范围。平台可对实例数、任务数、运行时长、资源配额和并发能力进行限制,保障比赛公平性与环境稳定性。


全流程记录与审计

平台能够对模型调用、网络访问、任务日志、运行日志、提交行为和异常轨迹进行记录,让智能体的行为链路可追踪、可解释、可复核。这不仅服务于赛事管理,也为后续智能体行为分析和能力评估提供依据。


综合评分机制

除有效Flag提交外,平台还可结合Token消耗、资源效率、完成时间、错误提交率、高难度题完成情况等维度进行综合评价,鼓励智能体以更稳定、更高效、更可控的方式完成任务。

以赛促评,探索大模型安全应用新边界

AI Agent CTF的意义,不只是举办一场新的比赛。它为大模型安全能力评测提供了更接近真实任务的实验场,也为安全智能体的工程化落地提供了验证平台


通过赛事,行业可以更清晰地观察AI Agent在安全任务中的真实表现:能否理解复杂安全问题,能否自主拆解任务路径,能否调用工具完成验证,能否在失败后调整策略,能否在资源约束下保持高效,并形成可审计、可复核的行为链路。


这些问题,正是大模型与智能体系统从“演示能力”走向”可用能力”必须回答的问题。


面向未来,安恒信息将持续围绕网络安全竞赛平台、AI Agent安全能力测评和智能体实战应用开展探索,推动网络安全人才培养、技术验证和行业交流进入更加智能化、实战化的新阶段。


AI Agent已经上场。CTF竞赛,也正在进入智能体时代。


竞赛服务咨询请联系:

金老师:13456635712



第九届西湖论剑大赛
将以全新赛制回归
敬请期待

AI

关闭

客服在线咨询入口,期待与您交流

线上咨询
产品试用

即刻预约免费试用,我们将在24小时内联系您

联系我们

咨询电话:400-6059-110

微信咨询
安恒信息联系方式