记者了解到,目前由于在互联网背景下,方言保护面临诸多挑战,而阳江方言种类繁多,加上本地新生代在日常交流和学习中主要以普通话为主,这对阳江话的传承造成一定的不利影响。
为应对这一挑战,去年下半年,广东海洋大学阳江校区计算机科学与工程学院教师邓超与校内其他4名博士组成科研团队,启动了阳江方言大模型系统研究课题。
邓超表示,开展该课题首先要采集大量的数据样本,对数据进行标注分类,接着对模型进行训练调参优化,让模型达到一定的准确度和识别率,并在这个过程中不断循环迭代,一旦模型达到应用的成熟度,将会在线部署模型,例如将其运用于智能客服的热线电话,进行实地的测试训练和迭代优化,并且不断调试,最终交付出产品级的应用系统。在研究中,数据采集和算力资源是项目难点。数据采集需要具有人群代表性,算力资源则依赖于大厂和运营商的支持。团队正在与华为等厂商协调,并得到我市相关部门的支持意向。
同时,广东海洋大学阳江校区也在建设人工智能实验室,团队也将争取相应的资源支持。目前,团队已经收集了中文文字数据集上万条,音频数据已录制5000个词语、1000条句子。