每经记者:周逸斐 每经编辑:陈星
1月13日,国家发展改革委、国家数据局、财政部、人力资源社会保障部联合发布《关于促进数据标注产业高质量发展的实施意见》(以下简称《实施意见》)。
《实施意见》提出到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%,培育一批具有影响力的科技型数据标注企业,打造一批产学研用联动的创新载体,建设一批成效明显、特色鲜明的数据标注基地,形成相对完善的数据标注产业生态,构建创新要素聚集、产业链上下游联动、区域协同发展的新格局。
《实施意见》包括总体要求、主要任务、保障措施三个部分。主要任务围绕深化需求牵引、增强创新驱动、繁荣产业生态、优化产业支撑四个方面提出相关政策举措。
赛智产业研究院副院长邓道正接受《每日经济新闻》记者书面采访时表示,数据标注是人工智能大模型训练的基础,通过为数据添加标签或注释,使得大模型能够有效学习如何识别、分类或理解信息,提升模型的理解能力。全面、准确的数据标注可以显著提高大模型的准确性和可靠性,多样化的标注数据则能够显著增强大模型在不同场景下的泛化能力。
释放企业数据标注需求
《实施意见》提出,深化需求牵引,释放公共数据标注需求。深化人工智能在政务服务、城市治理、乡村振兴等领域应用,编制公共数据标注目录,依法依规有序推动公共数据标注与开发利用。支持公共数据赋能实体经济发展,在现代农业、智能制造、信息服务等重点领域发掘公共数据标注需求。支持跨部门、跨地区、跨层级公共数据融合应用,鼓励政府部门和企业协同开展政务大模型所需数据的标注和训练。推动数据标注服务纳入政府采购范畴。
挖掘企业数据标注需求。支持数据要素赋能产业转型升级,深挖企业生产管理全流程数据标注需求。实施“国有企业数据效能提升行动”,加大企业数据开发利用,释放企业数据标注需求。加强交通、医疗、金融、科学、制造、农业等重点行业领域数据标注,建设行业高质量数据集,支撑人工智能在行业领域的应用赋能。围绕医疗健康、人力资源、数字贸易、自动驾驶、低空经济等场景,以业务创新拉动数据标注需求。
邓道正告诉记者,目前,市场上大规模的数据标注应用主要集中在自然语言处理、自动驾驶、医学影像、智能安防、数字金融等人工智能应用较为广泛的领域。
“如在自然语言处理领域,需要对不同语言、语法结构、意图、情感等数据进行高质量标注,以用于训练机器学习模型,使其能够理解和生成人类语言,从而实现机器翻译、语音识别等各种应用;在自动驾驶领域,需要对交通信号识别、车道线检测、行人检测等领域数据进行精准标注,以便自动驾驶汽车能够准确理解和预测道路上的各种情况,避免交通事故。”邓道正说。
加快制定相关行业数据标注标准
《实施意见》还提出,健全数据标注标准。围绕数据标注关键环节,结合文本、图像、视频、语音等多模态数据标注需求,建立数据标注标准体系框架,制定数据标注技术、质量、能力等国家标准。聚焦重点行业领域,加快制定相关行业数据标注标准,促进协同创新。
邓道正告诉记者,目前,数据标注行业仍面临挑战,主要有数据标注标准缺乏、专业人才短缺、标注效率低及数据安全风险等方面。
数据标注标准方面,由于缺乏较为统一的行业标准与规范,导致在标注时因为标注员的专业水平、理解差异及疲劳作业等,使得标注结果难以保证一致性,数据质量较低,不能满足AI企业的需求。
邓道正认为,专业人才方面,由于数据标注行业对人才的需求量大,但符合要求的专业人才却相对稀缺,尤其是医疗、工业、科学研究等对专业知识要求较高的领域更是人才短缺,制约了行业的健康发展。
数据安全方面,由于在数据标注过程中,会接触到大量的敏感信息,包括用户信息、个人偏好等,如何保护这些敏感信息的安全,也是数据标注行业面临的一大挑战。
每日经济新闻