安恒信息论文入选互联网与数据智能领域国际顶级会议 WWW2026









The Web Conference (WWW) 是计算机科学领域中聚焦Web技术、信息检索、数据挖掘与智能应用的顶级国际学术会议之一,在Web搜索、推荐系统、知识图谱、社交网络分析以及大规模数据系统等方向具有深远的学术影响力。WWW与SIGIR、KDD等会议并列,被认为是Web与数据智能领域的代表性高水平会议之一,属于CCF推荐A类会议。WWW对论文的创新性、技术深度与实验完整性要求较高,强调问题建模的现实意义、方法设计的合理性以及在真实或大规模数据上的充分验证。WWW2026共收到3370篇有效投稿,其中676篇被正式录用,整体录用率约为20.1%。
随着生成式人工智能和大语言模型的快速发展,合成数据已成为模型训练和适配中缓解数据获取成本与隐私风险的重要手段,被广泛应用于大模型微调与下游任务优化。然而,近期研究表明,当模型在高比例合成数据条件下反复学习自身生成内容时,容易出现模型坍缩(model collapse)现象,即模型学习到的数据分布逐渐收缩,稀有但关键信息丰富的长尾语义被持续削弱,从而显著影响模型在复杂场景和长尾任务中的泛化能力。
这一问题在实际应用中尤为突出:一方面,真实数据往往受到隐私保护、采集成本或合规要求的限制,难以大规模获取;另一方面,现有合成数据生成方法多侧重于表层多样性,难以系统性覆盖真实数据分布中被长期忽视的稀疏语义区域,导致生成数据在语义层面与真实分布逐渐偏离。如何在不增加额外隐私风险和计算成本的前提下,从数据生成阶段有效缓解分布收缩、增强长尾语义覆盖,成为合成数据研究中亟待解决的关键问题。

基于上述动机,该工作聚焦于分布对齐的合成文本生成问题,提出了一种面向长尾语义增强的合成数据生成框架DASGen。该方法通过识别真实数据分布中长期被忽视的稀疏语义区域,并在生成阶段定向补全这些长尾语义,从而提升合成数据的语义覆盖度与多样性,降低模型坍缩风险并增强下游模型的泛化能力。具体而言,DASGen 在嵌入空间中对真实或参考数据进行轻量级分析以定位长尾语义区域,并在无需微调模型的前提下,引导大语言模型生成分布对齐的合成文本。该方法模型无关、部署成本低且隐私友好,为大规模合成数据场景下的模型训练提供了切实可行的技术路径。

在大模型时代,数据质量决定了人工智能的上限。本次入选WWW 2026 的成果 DASGen,标志着安恒信息在高质量合成数据生成领域取得了突破性进展:证明了通过精准捕捉和增强稀缺的“长尾语义”,可以生成分布对齐的高保真数据,甚至可以优化合成数据常引发的“模型坍缩”这一行业难题。我们将这一通过顶级学术会议验证的核心能力融入“数由空间”,旨在为客户提供不仅“量大”而且“质优”的数据燃料,从源头保障大模型的鲁棒性与泛化能力,确保持续、高价值的数据供给。





立即体验恒脑安全智能体 


立即解锁AI安服数字员工 




行业解决方案
技术解决方案



