语料若水，泽被万业！四川省情语料库“若水”正式上线

川观新闻

2024-10-10 21:19发布于四川四川日报社川观新闻官方账号

川观新闻记者蒋京洲董晓尚摄影肖雨杨

10月10日，四川日报报业集团在全国省级党报国际传播业务研讨会暨2024新型主流媒体建设天府年会上宣布，由该集团自主研发、多家省级部门、高校共同建设的四川省情语料库“若水”正式上线。

因何“若水”？据介绍，雅砻江、金沙江合流之段，古称若水，滋养蜀地、泽被万物。语料库取“若水”之名，则是汇聚各行各业的数据，以其为基础进行智能化开发，为媒体领域大模型相关应用及智库服务提供强力支撑、为各类大模型提供安全语料支撑、知识增强服务、助力各类人工智能应用实现主流价值观对齐。

“若水”以四川日报报业集团在国家网信办备案通过的智媒大模型为底座，对四川日报自有数据以及拟整合的省政府网站、省统计局、省地方志办等单位数据进行归一化处理、数据分析、标注并形成相关高质量数据集及数据应用。截至目前，已统计的数据文字约200亿字，各类图片约1180万张，视频约20万条。

活动现场

如何“若水”？通过对大量四川省情语料的深度学习，“若水”已学习了许多与四川有关的知识，可为用户了解四川、研究四川提供帮助。目前，“若水”已支持通过自然语言与大模型进行交互问答。例如，记者输入问题“川剧有哪些代表曲目？”，语料库随即响应，返回了“《攀枝花传奇》《岁岁重阳》《金银坡》《桃村新歌》《燕儿窝之夜》”等数据。其依据主要来自投入训练的《四川省志·川剧志》中的相关记载。

据开发人员介绍，四川省情语料库“若水”系统经过近两年的技术准备和技术攻关，目前已经具备自然语言处理、知识图谱构建、智能问答等模块功能。在数据处理方面，充分发挥了大模型的优势，有效减少样本人工标注工作量，提升了系统的运行效率和通用能力。同时通过专业编辑人员的人工校准，对PDF的处理、表格的处理和数字的精准性都做了针对性的攻关，极大提升了语料处理的准确性。

根据开发计划，四川省情语料库“若水”预计在本月底完成川观新闻2017年以来的历史数据清洗和训练，今年11月内完成已整合机构的大样本数据训练工作，形成约4亿条高质量语料。预计在两年内形成300亿字左右的本土高质量数据集，形成20万条左右的标注样本库，形成多个行业的知识图谱。

在应用方面，四川省情语料库“若水”已在媒体生产、产品开发、生态建设三个方面做出规划，即介入媒体产品的生产过程，提升智媒大模型的能力和水平；与机构联合开发产品，丰富服务群众的应用场景；积极加入天府融媒联合体和四川省人工智能的生态建设，为四川人工智能应用提供高质量的数据支撑服务。

查看原图 389K