拓尔思数据要素案例
该数据要素项目案例由拓尔思投递并参与“数据猿年度金猿策划活动——2024数据要素产业年度创新服务企业榜单/奖项”评选。
媒体行业企事业单位在数据要素领域得天独厚,日积月累的新闻报道、媒资素材、读者反馈和市场研究,沉淀出属于它们的“数据金矿”。
但是,多数相关单位尚未重视和发挥数据要素价值,导致资源闲置。闲置的数据要素既无法赋能内部业务团队,也无法通过对外输出来实现社会和商业价值。这种对数据只存不用的行为,导致媒体行业的“金矿”逐渐变成为“包袱”。
科技日报社2023年认为目前的工作业务存在以下痛点,需要升级改进:
1、各业务部门和社外单位对媒体数据资源的开放共享数据需求不断增强,亟需扩展基础数据资源,形成可持续性数字经济发展能力;
2、传播力分析及其他数据分析统计准确度不高,有优质数据但还未形成高质量的数据资产,无法支撑报社业务;
3、拥有丰富的数据资源及数据产品,亟需根据用户需求,提供标准的数据及服务,提升数据资产交易流通能力;
4、现有专题定制主要通过关键词、时间范围、信源等多信息自定义复杂查询来匹配专题内容,亟需实现智能化的精准专题内容和数据深度分析,将数据服务封装成精准专题产品,如数据深度报告、新闻分析服务等。
时间周期:
项目开始时间:项目第三期2023年9月启动
中间重要时间节点:2024年5月初验
项目完结时间:2024年9月终验
数据要素价值需求
1、依托丰富的数据资源构建数据底座
通过构建数据支撑平台,实现科技资讯的全流程数据资讯处理和数据挖掘,对科技数据资源进行全生命周期的存储管理、标准管理、流程管理、质量管理和安全管控,并支撑以此为基础的数据服务。同时,为其他平台的建设工作提供全面的资源支持,最大化体现科技资讯服务平台专业性与专注度。
2、立足科技行业,打造具有鲜明特色的大数据科技资讯服务平台
在数据支撑平台的基础上,构建“中国科技资讯库”,并实现大数据科技资讯的移动化展示。同时,构建中国科技资讯库后台管理系统,实现对移动端及WEB端平台的统一管理,包括两端数据的统一管理、用户会员管理、应用端运营管理、用户画像等。通过以上内容建设,打造具有鲜明特色的大数据科技资讯服务平台,立足科技行业、为发展科技大数据产业、深化科技供给侧改革提供支撑。为政府部门、企事业单位和各类社会组织的决策、运作提供科技资讯移动服务,为社会公众提供科技资讯和科学普及知识服务。
3、提升数据质量,稳定数据来源,为社内业务场景提供更优的数据支持
进一步丰富基础数据资源, 加大外部高质量数据的标准化统一接入,为数据对外服务提供有力支持。通过智能化生产平台建设,提供精准内容专题定制服务及深度数据分析服务,构建媒体知识库、媒体原创识别知识库,及持续性的数据深度分析,为科技日报社工作提供更优的数据支撑。
4、构建智能数据中台,从API层面实现深度的数据拉通
快速高效复用已有的业务系统,最大化提升数字资产复用率和价值,建立API的统一管理体系及标准规范,并对API进行显性化、可视化,深化完善报社核心数字资产的全生命周期管理。
面临挑战
1、客户对数据资源的开放共享数据需求激增,亟需拓展高质量的基础数据资源;
2、从优质数据如何变成高质量数据资产,需要进一步对相关数据进行高精度的清洗、加工与分析,相关能力亟待跟上业务快速发展的需求;
3、数据资源亟需变成高质量的标准化、智能化、专业化的可直接进行交易流通的产品。
数据处理
目前共接入近8000个信源,包括网信办白名单、重点科技信源、科技日报社及国外重点基础信源等,资讯总量已达到2.3亿条。
应用技术与实施过程
拓尔思基于丰富的数据要素业务实践经验,承担项目具体的实施工作。通过对科技日报大数据支撑服务平台需求的充分理解,认为,报社大数据科技资讯服务平台建设主要包括“报社大数据支撑服务平台”的建设、“大数据科技资讯服务平台的建设”、“中国科技资讯库后台管理系统建设”、“精准专题生成服务”平台建设。
“科报大数据支撑服务平台”建设思路
在基础层上夯实大数据基础、构建科技媒体核心数据资产,赋能中央厨房模式内容生产策、采、编、发、评、营全面升级;建立用户关系连接、实现行业格局全息洞察、优势资源高效功效、全媒报道链条联动、智库产品精准传播,打造集咨政建言、理论创新、舆论引导、社会服务于一体的新型科技行业智库。
大数据支撑服务的资讯资源由网络媒体、新媒体、报纸、图文音视频等报社各类原始数据汇聚组成,可实现数据资源的基础整合。在此基础上,通过大数据技术手段对基础资讯数据进行智能化处理,形成具有科技资讯特点的大数据科技资讯库、科技资讯专题库和科技知识库等多种数据库,并与科技日报的报网端微的业务平台和系统进行对接,实现精准专题内容制作与定制专题内容的推送,为科技数据深度挖掘、科技资讯智能分析创造基础性条件、提供支撑性服务。
大数据支撑服务平台将建设科技资讯采集接入子系统、科技数据智能处理子系统、大数据管理子系统、科技知识加工子系统4个子系统。
1)科技资讯采集接入子系统
科技资讯采集接入子系统是以中国科技资讯数据中心为核心,实现科技资讯采集接入的建设。针对多源异构数据的接入,将推送数据进行多源、多时态、多尺度的整合,最终形成资讯内容大数据资源池,作为基础的数据服务支撑。
2)科技数据智能处理子系统
科技数据智能处理子系统通过大数据智能处理技术手段对基础素材库进行语义分析、标签自动标引、信息分类、聚类等大数据智能处理。
3)大数据管理子系统
大数据管理子系统主要是为中国科技资讯大数据中心提供数据的存储管理、检索服务与数据管理,支撑上层平台的移动端业务应用。
4)科技知识加工子系统
科技知识加工子系统针对科技日报资讯业务需求,以中国科技资讯大数据中心为基础,从科技新闻、科技人员、科技机构、科技成果等多方位考虑,进行科技领域知识的信息收集及关键数据抽取,构建科技资讯所需的基础信息知识库,并提供数据查询展示,为科技资讯服务提供数据和业务支撑。
“大数据科技资讯服务平台”及后台管理系统的建设思路
在“科报大数据支撑服务平台”的基础上,构建中国科技资讯库、自动汇聚海量科技资讯,实现大数据科技资讯的WEB端及移动化展示形式,通过拓尔思人工+自动标引技术,聚合分类资源,形成人物专题库、领域专题库等特色数据库,同时依托拓尔思的榜单计算模型、传播指数模型,热点分析模型,结合用户科技领域专业知识,提供科技领域热榜、科技热点、科技公众号排行等。形成集资讯+知识+专题+榜单+可视化+推荐为一体的融合数据关联分析产品。与此同时,建立完善的后台管理系统,形成集数据管理、WEB端网站管理、APP应用管理、运营管理、日志管理、会员管理、用户画像管理、智能推荐于一体的一站式管理平台。
“精准专题生成服务”平台建设思路
精准专题生成服务将专题数据自动汇聚,充分挖掘数据之间的关联关系,提升数据的潜在价值;同时专题定制与报社已有业务系统应紧密结合,为新闻生产及数据增值运营提供数据服务支撑。平台依托拓尔思专题追踪、热点发现、线索聚合、传播指数计算、可视化轨迹溯源等人工智能和大数据分析技术,构建精准资讯专题,分别支撑不同的业务场景,包括电子报专题、原创稿件专题、宣传发行矩阵、领导动态专题、科技政策专题、重大科技直播专题、视频媒资专题、科技热点专题、事件分析、线索舆情专题、突发事件专题、新媒体榜单、数据服务统计、用户画像专题、央媒对比专题等。
服务效果
数据资源总量方面:科技日报社—中国科技资讯库基本覆盖了全网科技类基础数据资源,数据底座共接入近8000个信源,包括网信办白名单、重点科技信源、科技日报社及国外重点基础信源等。其资讯总量已达到2.3亿条,为报社新闻资讯留存、新闻生产支撑和数据资讯服务等方面提供了有力支撑。
数据资源的开放共享方面:报社全系统一体化接口智能监管平台已上线,将报社APP、网站、社交媒体、内部业务系统、外部第三方接口进行标准化统一管理,实现数字资产的对外服务能力,实现了共273个接口的线上管理及一站式对外服务。
数据的交易流通方面:科报大数据科技资讯服务平台服务应用目前已覆盖了生物、医药等行业领域,并且能够针对特定高端用户实现精准数据推送。目前,移动终端覆盖了全国31个省科技厅局、高新区及有关科研院所等单位机构。在对外服务方面,报社实现超预期创收。
相关企业介绍
·科技日报
科技日报社是中编办批准设立、由科学技术部代管的副部级事业单位,是承担党和国家舆论宣传任务的中央主流媒体之一,是党中央、国务院在科技领域的宣传主阵地。
·拓尔思
拓尔思信息技术股份有限公司创立于1993年,是中文全文检索技术始创者,领先的人工智能、大数据和数据安全产品及服务提供商,中国第一家上市的大数据技术企业,股票代码300229。TRS系列产品已被海内外10000家以上的政府和企业客户广泛使用。公司建有大数据中心,涵盖四大数据资产平台,拥有3000亿高质量数据资产。公司自主研发的拓天大模型一体化平台,在媒体、金融、政府、舆情、公安等垂直行业已得到成功应用。