像电商直播一样,数据也要“选品”!高质量数据集破解AI“胡说八道”

图片

湖北日报全媒记者 刘天纵 通讯员 黄芳

电商直播销量旺不旺,主播“选品”很重要;数字经济发展好不好,构建“高质量数据集”少不了。 

数据作为人工智能发展三大引擎之一(数据、算法、算力),是推动人工智能赋能千行百业的基础和驱动。12月26日,湖北省高质量数据集研讨会在武汉举行,省数据局发布了《湖北省高质量数据集白皮书》和首批10个行业高质量数据集证书,为湖北打造全国数字经济发展高地夯实基础。

构建高质量“数据集市”

数据集,英文名“dataset”,系浩如烟海的数据集合。在人工智能产业,要训练出高质量的大模型应用,需要不断“投喂”高质量数据集。

国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》指出:要强化场景需求牵引,带动数据要素高质量供给、合规高效流通,充分实现数据要素价值。 

“建设高质量数据集势在必行。”软通智慧数据服务有限公司副总裁、数据要素首席科学家林镇阳表示,目前,贵州、江苏、浙江等多省市积极响应国家政策,明确了建设高质量数据集的数量、时间及激励机制。《湖北省高质量数据集白皮书》的发布有利于带动科技企业、龙头企业建设湖北特色的高质量数据集,赋能产业大模型应用。   

从全球看,随着人工智能蓬勃发展,与之密切相关的训练数据集(特别是中文)存在数据量少、数据质量不高、数据使用不方便等问题。     

为此,《湖北省高质量数据集白皮书》明确了数据集的标准体系、平台架构、治理加工流程,以及数据提质、数算一体、联合众创、全链路流通共享等模式,推动构建高质量“数据集市”。 

中国信息协会数据要素专委会常务副主任潘菲认为,湖北位于华中腹地,有望成为高质量数据集流通的核心节点,发挥数据要素全国示范引领作用。

图片

首批10个高质量数据集脱颖而出

今年,省数据局公开征集活动得到社会各界积极响应——共收集筛选23家企业的51个数据集进入评审,数据集总量394.11TB,涉及科技创新、医疗健康、交通运输等11个行业领域,数据集模态涵盖结构化数据、文本、视频、音频、图形图像等多种形式。

会上,省数据局本着优中选优的原则,公布了全省首批10个高质量数据集,包括湖北科创供应链有限公司“科创链供需要素数据集”、传神语联网网络科技股份有限公司“高质量多语种语料数据集”、湖北供应链物流公共信息服务股份有限公司“公路运费贷数据集”、武汉大学口腔医院“超高清人类恒牙牙体与根管三维形态数据集”等。 

国家科技评估中心专家、中南财经政法大学金融学院教授过文俊坦言,当前,训练大模型所需的数据增速远高于高质量数据集积累的增速,AI合成数据也面临“垃圾进垃圾出”问题。湖北首批10个高质量数据集的阶段性成果,将为相关细分领域的AI大模型开发训练提供坚实基础,体现了湖北在人工智能产业上的人才优势和产业基础。 

“高质量的数据供给与需求匹配至关重要。”武汉大学信息管理学院副院长吴江建议,数据交易场所作为一体化数据市场中的链接桥梁,承担着数据交易的关键枢纽功能,可借鉴电子商务的模式,建立环境标准化、加工标准化、选品标准化、封装标准化、说明标准化的数据供给流程,实现数据要素的高质量流动。

省数据局党组成员、副局长艾青松表示,行业高质量数据集基础在“建”,重点在“用”。下一步,省数据局将联合行业主管部门,加强高质量数据集标准化建设,常态化开展高质量数据集征集,支持高质量数据集项目建设,加强高质量数据集安全与隐私保护,推动形成数据资源的“共建、共享、共用”良好生态。