js1996官网信息论文入选互联网与数据智能领域国际顶级会议 WWW2026









The Web Conference (WWW) 是推算机科学领域中聚焦Web技术、信息检索、数据挖掘与智能利用的顶级国际学术会议之一,在Web搜索、推荐系统、知识图谱、社交网络分析以及大规模数据系统等方向拥有深远的学术影响力。WWW与SIGIR、KDD等会议并列,被以为是Web与数据智能领域的代表性高水平会议之一,属于CCF推荐A类会议。WWW对论文的创新性、技术深杜纂尝试齐全性要求较高,强调问题建模的现实意思、步骤设计的合理性以及在真实或大规模数据上的充分验证。WWW2026共收到3370篇有效投稿,其中676篇被正式录用,整体录用率约为20.1%。
随着天生式人为智能和大说话模型的急剧发展,合成数据已成为模型训练和适配中缓解数据获取成本与隐衷风险的沉要伎俩,被宽泛利用于大模型微调与下游工作优化。然而,近期钻研批注,当模型在高比例合成数据前提下反复进建自身天生内容时,容易出现模型坍缩(model collapse)景象,即模型进建到的数据散布逐步收缩,罕见但关键信息丰硕的长尾语义被持续减弱,从而显著影响模型在复杂场景和长尾工作中的泛化能力。
这一问题在现实利用中尤为凸起:一方面,真实数据往往受到隐衷;ぁ⒉杉杀净蚝瞎嬉蟮南薅,难以大规;袢;另一方面,现有合成数据天生步骤多侧沉于表层多样性,难以系统性覆盖真实数据散布中被持久忽视的稀少语义区域,导致天生数据在语义层面与真实散布逐步偏离。若何在不增长额表隐衷风险和推算成本的前提下,从数据天生阶段有效缓解散布收缩、加强长尾语义覆盖,成为合成数据钻研中亟待解决的关键问题。

基于上述动机,该工作聚焦于散布对齐的合成文本天生问题,提出了一种面向长尾语义加强的合成数据天生框架DASGen。该步骤通过鉴别真实数据散布中持久被忽视的稀少语义区域,并在天生阶段定向补全这些长尾语义,从而提升合成数据的语义覆盖杜纂多样性,降低模型坍缩风险并加强下游模型的泛化能力。具体而言,DASGen 在嵌入空间中对真实或参考数据进行轻量级分析以定位长尾语义区域,并在无需微调模型的前提下,疏导大说话模型天生散布对齐的合成文本。该步骤模型无关、部署成本低且隐衷敦睦,为大规模合成数据场景下的模型训练提供了切实可行的技术蹊径。

在大模型时期,数据质量决定了人为智能的上限。本次入选WWW 2026 的成就 DASGen,标志取js1996官网信息在高质量合成数据天生领域获得了突破性进展:证了然通过精准捉拿和加强稀缺的“长尾语义”,能够天生散布对齐的高保真数据,甚至能够优化合成数据常引发的“模型坍缩」剽一行业难题。我们将这一通过顶级学术会议验证的主题能力融入“数由空间”,旨在为客户提供不仅“量大”并且“质优”的数据燃料,从源头保险大模型的鲁棒性与泛化能力,确维持续、高价值的数据供给。





立即履历恒脑安全智能体 



立即解锁AI安服数字员工 




行业解决规划
技术解决规划









