人民网
人民网>>江苏频道>>经济

崔向雨:高质量数据集是“数据要素×”“人工智能+”行动的“焊接点”

人民网记者 马晓波
2025年11月07日11:09 | 来源:人民网-江苏频道
小字号

11月3日,由全国数据标准化技术委员会(以下简称“全国数标委”)主办,全国数标委秘书处(中国电子技术标准化研究院)和江苏省数据局承办的全国数标委2025年第二次“标准周”活动在江苏省南京市举行。

活动期间,北京海天瑞声科技股份有限公司副总裁、全国数标委委员崔向雨就“人工智能数据产业发展与高质量数据集构建路径”议题进行了分享。

崔向雨在WG2数据治理标准工作组会议上发言。人民网记者 马晓波摄

崔向雨在WG2数据治理标准工作组会议上发言。人民网记者 马晓波摄

崔向雨介绍,人工智能大模型发展对高质量数据集要求是“更高更新”,全球相关研究机构数据显示,过去15年间人工智能模型训练数据集需求量每年以250%的速度增长。中国高度重视数据产业发展和高质量数据集的建设工作,发布了一系列支持数据产业和高质量数据集建设的政策文件。据不完全统计,全国有20多个省市积极培育和发展数据标注产业,为地方数字经济发展提供新动能。“高质量数据集已是‘ 数据要素×’和‘人工智能+’行动的‘焊接点’。”

崔向雨认为,作为“人工智能+”行动落地的基础支撑能力之一,高质量数据集建设应遵循总体规划、分步实施、先易后难、先简后繁的原则,要以工程化思维推动高质量数据集建设的智能化和平台化,生产流程上应包括结构设计、数据采集、存储传输、加工标注、质检审核、运营服务等6个步骤。从供给侧挖掘数据价值、需求侧支撑人工智能创新发展同时发力,锚定高质量数据集建设助推人工智能+行动落地。

“随着数据要素市场培育加快,数据标注产业逐渐受到关注和重视。”崔向雨说,狭义上看,数据标注是指对未经处理的原始数据通过分类、标记、注释等技术手段,对未经处理的文本、语音、图像、视频等数据进行添加说明、解释分类或编码并转换为机器可识别信息的过程,为机器学习提供训练数据集。整体上看,数据标注是一项工程化的解决方案。涵盖数据生产的整个流程包括数据设计、数据采集、数据清洗、数据标注、数据质检、数据验收等所有环节。

根据《关于促进数据标注产业高质量发展的实施意见》,数据标注产业已成为对数据进行采集、筛选、清洗、分类、注释、标记和质量检验等加工处理的一大新兴产业。

(责编:张鑫、李阔)

分享让更多人看到

返回顶部