数字经济的安全基石

申请试用

首页 > 关于我们 > 安恒动态 > 2026 > 正文

安恒信息论文入选互联网与数据智能领域国际顶级会议 WWW2026

阅读量:文章来源:安恒信息

安恒信息与浙江大学合作的论文《Distribution-Aligned Synthetic Text Generation via Tail-Aware Enhancement》于2026年1月被互联网与数据智能领域国际顶级会议 THE ACM WEB CONFERENCE 2026(WWW 2026)正式录用。论文作者包括安恒信息范渊、刘小源、王吾冰,通讯作者为安恒信息刘博。



会议介绍


The Web Conference (WWW) 是计算机科学领域中聚焦Web技术、信息检索、数据挖掘与智能应用的顶级国际学术会议之一,在Web搜索、推荐系统、知识图谱、社交网络分析以及大规模数据系统等方向具有深远的学术影响力。WWW与SIGIR、KDD等会议并列,被认为是Web与数据智能领域的代表性高水平会议之一,属于CCF推荐A类会议。WWW对论文的创新性、技术深度与实验完整性要求较高,强调问题建模的现实意义、方法设计的合理性以及在真实或大规模数据上的充分验证。WWW2026共收到3370篇有效投稿,其中676篇被正式录用,整体录用率约为20.1%。


研究目标与动机


随着生成式人工智能和大语言模型的快速发展,合成数据已成为模型训练和适配中缓解数据获取成本与隐私风险的重要手段,被广泛应用于大模型微调与下游任务优化。然而,近期研究表明,当模型在高比例合成数据条件下反复学习自身生成内容时,容易出现模型坍缩(model collapse)现象,即模型学习到的数据分布逐渐收缩,稀有但关键信息丰富的长尾语义被持续削弱,从而显著影响模型在复杂场景和长尾任务中的泛化能力。


这一问题在实际应用中尤为突出:一方面,真实数据往往受到隐私保护、采集成本或合规要求的限制,难以大规模获取;另一方面,现有合成数据生成方法多侧重于表层多样性,难以系统性覆盖真实数据分布中被长期忽视的稀疏语义区域,导致生成数据在语义层面与真实分布逐渐偏离。如何在不增加额外隐私风险和计算成本的前提下,从数据生成阶段有效缓解分布收缩、增强长尾语义覆盖,成为合成数据研究中亟待解决的关键问题。



基于上述动机,该工作聚焦于分布对齐的合成文本生成问题,提出了一种面向长尾语义增强的合成数据生成框架DASGen。该方法通过识别真实数据分布中长期被忽视的稀疏语义区域,并在生成阶段定向补全这些长尾语义,从而提升合成数据的语义覆盖度与多样性,降低模型坍缩风险并增强下游模型的泛化能力。具体而言,DASGen 在嵌入空间中对真实或参考数据进行轻量级分析以定位长尾语义区域,并在无需微调模型的前提下,引导大语言模型生成分布对齐的合成文本。该方法模型无关、部署成本低且隐私友好,为大规模合成数据场景下的模型训练提供了切实可行的技术路径



构建高质量数据基础设施:
以顶级学术成果赋能空间数据供给


在大模型时代,数据质量决定了人工智能的上限。本次入选WWW 2026 的成果 DASGen,标志着安恒信息在高质量合成数据生成领域取得了突破性进展:证明了通过精准捕捉和增强稀缺的长尾语义,可以生成分布对齐的高保真数据甚至可以优化合成数据常引发的“模型坍缩”这一行业难题。我们将这一通过顶级学术会议验证的核心能力融入数由空间,旨在为客户提供不仅“量大”而且“质优”的数据燃料,从源头保障大模型的鲁棒性与泛化能力,确保持续、高价值的数据供给。


安恒数由空间能力特性



安恒信息打造的“数由空间”架构包含连接器、基础支撑平台(行业/区域功能节点)、数据流通利用平台(业务节点)和公共服务平台四层。“数由空间”在符合国家标准的基础上,在业界技术领先:

1. 基于隐私计算的大模型训练与推理模块

基于隐私计算的大模型训练与推理模块面向可信数据空间、高质量数据集生产平台的核心需求,构建覆盖大模型训练- 推理”全流程的数据安全与隐私防护体系。

核心技术层面,依托可信执行环境(TEE) 实现硬件级安全隔离,融合全链路加密技术保障数据传输、存储、计算全生命周期安全,从根源上杜绝敏感信息泄露。训练阶段,通过环境隔离、全流程审计与智能数据清洗机制,支持多源异构数据安全融合;同时提供模型参数加密与一致性核验能力,确保基础模型与精调数据集的合规性与安全性。推理阶段,采用动态权限管控、输出内容智能脱敏、沙箱环境隔离三重防护,兼顾模型核心资产保护与用户输入/推理结果隐私安全,为大模型在敏感数据场景下的合规应用提供坚实支撑。

2. 基于恒脑安全智能体与动态数据安全引擎的数由器

基于恒脑安全智能体与动态数据安全引擎的数由器聚焦数据基础设施、可信数据空间的数据跨域流通需求,基于智能体技术实现多源异构数据的智能识别、智能接入与供需精准匹配。

模块内置动态数据安全防护引擎,整合加密传输、可信环境隔离、动态脱敏、全流程审计溯源等核心技术,构建“数据接入 - 治理 - 流转 - 应用”的全链路动态安全防护体系。通过安全原生架构设计,在保障数据高效流通的同时,严格遵循“数据可用不可见”原则,破解跨域数据协作中的安全与效率矛盾,为数据基础设施、可信数据空间的规模化运营提供关键支撑。

3. 基于可信执行环境的智能分布式计算模块

基于可信执行环境的智能分布式计算模块针对可信数据空间、高质量数据集生产平台的密集型计算需求,打造集“高算力性能、数据隐私保护、智能化开发” 于一体的分布式计算底座

模块以可信执行环境(TEE) 为安全核心,通过硬件级隔离与加密防护筑牢数据安全屏障;结合异构计算加速能力,可高效支撑大模型训练、多源数据融合等算力密集型任务。依托分布式架构特性,实现多节点数据“本地存储、本地计算”,无需跨域传输原始数据即可完成协同计算,从根源上解决“数据不出域”与跨方协作的行业痛点。

模块内置恒脑安全智能体,提供模型开发辅助与算法自动优化能力,大幅降低模型开发门槛,提升开发效率与模型精度,为高质量数据集生产与可信数据空间的多源数据联合建模提供最优解。

4、基于恒脑安全智能体的动态数据安全模块

本模块深度适配可信数据空间、授权运营平台、高质量数据集生产平台的全链路安全需求,依托恒脑安全智能体的智能分析与决策能力,构建“感知 - 研判 - 防护 - 溯源” 的动态数据安全防护体系,为数据基础设施的安全运行提供智能化核心支撑。

模块以恒脑安全智能体为核心引擎,通过对多源异构数据的特征识别、风险行为建模与异常模式学习,实现对数据接入、流转、计算、应用全生命周期的动态风险感知。针对数据泄露、越权访问、恶意攻击等安全威胁,可自动触发访问控制、动态脱敏、沙箱隔离等防护策略,形成 “智能研判 - 主动防御”的闭环机制。相较于传统静态防护方案,本模块可根据数据类型、业务场景、安全等级的变化动态调整防护策略,大幅提升复杂业务场景下的数据安全防护效率与精准度,为可信数据空间的规模化建设与运营筑牢智能化安全防线。



关闭

客服在线咨询入口,期待与您交流

线上咨询
联系我们

咨询电话:400-6059-110

产品试用

即刻预约免费试用,我们将在24小时内联系您

微信咨询
安恒信息联系方式