川观新闻记者 蒋京洲 董晓尚 摄影 肖雨杨
10月10日,四川日报报业集团在全国省级党报国际传播业务研讨会暨2024新型主流媒体建设天府年会上宣布,由该集团自主研发、多家省级部门、高校共同建设的四川省情语料库“若水”正式上线。
因何“若水”?据介绍,雅砻江、金沙江合流之段,古称若水,滋养蜀地、泽被万物。语料库取“若水”之名,则是汇聚各行各业的数据,以其为基础进行智能化开发,为媒体领域大模型相关应用及智库服务提供强力支撑、为各类大模型提供安全语料支撑、知识增强服务、助力各类人工智能应用实现主流价值观对齐。
“若水”以四川日报报业集团在国家网信办备案通过的智媒大模型为底座,对四川日报自有数据以及拟整合的省政府网站、省统计局、省地方志办等单位数据进行归一化处理、数据分析、标注并形成相关高质量数据集及数据应用。截至目前,已统计的数据文字约200亿字,各类图片约1180万张,视频约20万条。
活动现场
如何“若水”?通过对大量四川省情语料的深度学习,“若水”已学习了许多与四川有关的知识,可为用户了解四川、研究四川提供帮助。目前,“若水”已支持通过自然语言与大模型进行交互问答。例如,记者输入问题“川剧有哪些代表曲目?”,语料库随即响应,返回了“《攀枝花传奇》《岁岁重阳》《金银坡》《桃村新歌》《燕儿窝之夜》”等数据。其依据主要来自投入训练的《四川省志·川剧志》中的相关记载。
据开发人员介绍,四川省情语料库“若水”系统经过近两年的技术准备和技术攻关,目前已经具备自然语言处理、知识图谱构建、智能问答等模块功能。在数据处理方面,充分发挥了大模型的优势,有效减少样本人工标注工作量,提升了系统的运行效率和通用能力。同时通过专业编辑人员的人工校准,对PDF的处理、表格的处理和数字的精准性都做了针对性的攻关,极大提升了语料处理的准确性。
根据开发计划,四川省情语料库“若水”预计在本月底完成川观新闻2017年以来的历史数据清洗和训练,今年11月内完成已整合机构的大样本数据训练工作,形成约4亿条高质量语料。预计在两年内形成300亿字左右的本土高质量数据集,形成20万条左右的标注样本库,形成多个行业的知识图谱。
在应用方面,四川省情语料库“若水”已在媒体生产、产品开发、生态建设三个方面做出规划,即介入媒体产品的生产过程,提升智媒大模型的能力和水平;与机构联合开发产品,丰富服务群众的应用场景;积极加入天府融媒联合体和四川省人工智能的生态建设,为四川人工智能应用提供高质量的数据支撑服务。