首页 > 产业市场 > 即时新闻

为AI发展提供充足“燃料” 行业高质量数据集建设方案落地

2026-06-09 07:26 来源:经济参考报
查看余下全文
首页 > 产业市场 > 即时新闻

为AI发展提供充足“燃料” 行业高质量数据集建设方案落地

2026年06月09日 07:26 来源:经济参考报 □记者 郭倩
[字号 ]

记者6月8日从国家数据局获悉,国家数据局日前印发《关于推进行业高质量数据集建设行动的实施方案》(下称《实施方案》),提出到2028年底,建成一批覆盖重点领域、经过应用验证的行业高质量数据集,打造一批数据驱动人工智能创新发展的典型应用场景,培育一批具备领先优势的创新型数据企业和专业人才,形成一批行业高质量数据集建设工具和标准。

专家表示,当前人工智能正在加速从“可用”向“好用”迈进,高质量数据集作为大模型训练与应用的基石,供给规模与质量直接决定人工智能创新高度与产业落地深度。加快推进行业高质量数据集建设,将直接利好数据标注、数据服务、模型应用等多个产业环节。

数据显示,截至2026年第一季度,全国已建成高质量数据集超过11.6万个,总体量超过960PB,日均词元(Token)调用量突破140万亿。

赛智产业研究院人工智能研究所所长安赟对记者表示,当前,人工智能正在从通用对话和内容生成向智能体、科学智能、具身智能和世界模型等方向演进,对行业数据的专业性、结构性、场景性和可验证性提出了更高的要求。但是,行业数据仍然存在分散沉淀、质量不高、标准不一、模型适配不强、应用验证不够等问题,制约人工智能在重点行业和复杂场景中的深入应用。

《实施方案》聚焦国民经济发展重点行业和战略性新兴产业,围绕行业高质量数据集供给、流通、应用等关键环节,部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六个专项行动,旨在形成“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的“数据飞轮”,加快构建数据要素与人工智能协同演进的共生生态。

比如,在实施强基扩容行动方面,《实施方案》提出拓宽数据供给渠道,丰富数据供给类型,加快建设行业高质量数据集,为人工智能发展和应用提供充足“燃料”。其中明确,聚焦科学研究、工业制造、农业农村、智慧能源、交通运输、金融服务等重点领域,以及低空经济、具身智能、智能驾驶、智慧海洋、生物制造等创新领域,加快推进行业高质量数据集建设。

在实施标注攻坚行动方面,将持续推动数据标注先行先试。培育一批数据标注龙头企业、独角兽企业、瞪羚企业,壮大数据标注产业。在实施价值释放行动方面,《实施方案》提出,创新行业高质量数据集商业模式,包括“探索词元交易等新型交易模式,构建以词元为基础,可量化、可定价的数据价值体系”等。

分析人士认为,系列举措也将给数据标注、数据服务、模型应用等多个产业环节带来发展利好。

北京前沿未来科技产业发展研究院院长陆峰表示,在数据标注环节,《实施方案》明确培育数据标注龙头企业、独角兽企业等,推动数据标注向专业化、智能化跃升;系列举措强调加强数据清洗、增强、质检等关键技术攻关,鼓励运用仿真合成技术解决稀缺场景数据难题,直接利好技术驱动型数据服务商;此外,模型应用与流通环节将加速价值释放,《实施方案》要求打造“数据飞轮”闭环,培育数据付费市场共识,这将为数据流通与商业变现扫清障碍。

安赟认为,建设行业高质量数据集主要涉及数据资源供给、加工标注、质量提升、模型应用、管理服务和价值释放等产业链环节。特别是,行业高质量数据集建设将优先带动数据资源丰富、应用场景明确、人工智能赋能需求迫切的重点行业和新兴领域,比如,低空经济、具身智能、智能驾驶、智慧海洋、生物制造等创新领域对多模态数据、仿真数据、物理交互数据和高精度标注数据需求较强,将带动数据采集、仿真建模、场景测试和模型训练等环节发展。

这也将为相关行业企业进一步打开发展空间。陆峰认为,相关企业可深耕技术工具与场景闭环,重点投入数据清洗、合成、质检等关键技术研发;同时,深入重点行业和战略性新兴产业,构建“需求-数据-模型”闭环,打造可复用的标杆案例。安赟则表示,数据资源企业要加快梳理数据资源底数,围绕重点行业应用需求,建设可用于模型训练、应用验证和流通交易的高质量数据集,提升数据资源的产品化和服务化能力,为产业链上下游提供稳定的数据供给。

(责任编辑:刘芃)