“法信法律基座大模型”成果发布,高质量的法律数据预训练是构建其能力的关键

11月15日,最高人民法院召开新闻发布会,发布“法信法律基座大模型”研发成果。

人民法院出版社副总编辑、人民法院电子音像出版社社长林志农介绍,“法信法律基座大模型”使用最高人民法院“法信”等多个法律大数据平台的全量数据资源,种类全、规模大、来源可信、权威度高,能够源源不断为大模型预训练和机器深度学习提供充足的法律数据语料。

日前,“法信法律基座大模型”已完成在网信部门的生成式人工智能服务备案。据媒体此前报道,全国已有200多个大模型通过网信部门登记备案。

相比于其他大模型,专门的法律大模型有什么特点?对此,林志农表示,目前在国家网信部门备案的大模型中,既有通用大模型,也有行业大模型。大模型是一种利用大量数据和算力,通过深度学习技术训练出来的人工智能模型,它具有理解、生成、处理与规划各种类型数据的能力,它的规模和能力目前已经达到千亿乃至万亿参数的级别,是一种典型的新质生产力,可以应用于各个领域,为人类提供智能化的服务和解决方案。通用大模型虽然具有广泛应用能力,但它不一定完全匹配每个行业的专业知识和需求,法律行业的特殊性,使得研发建设法律大模型尤为必要。

林志农从三个方面进行了介绍。

一是法律行业应用大模型,既要同中国法治建设实际相结合,也要同中华优秀传统法律文化相结合,要坚持正确的政治导向,弘扬社会主义核心价值观和社会主义法治精神,要确保内容安全。

二是法律行业的专业性、精准性,需要高度标准且及时更新的各种专业法律数据作为训练语料,以提升大模型对法律理解的准确性和适用性。法律思维本身特有的逻辑性、严谨性,也要求大模型具备更为强大的逻辑推理能力和论证能力。

三是法律文本及各种法律文书在应用时有规范性和严肃性的要求,因此对大模型生成内容的专业合规、安全可信提出更高的要求。

对于“法信法律基座大模型”名称中的“基座”二字,林志农表示,“基座”通常是指建筑的基础底座。“法信法律基座大模型”中“基座”可以从三个方面来认识理解。

一是起基础支撑作用。高质量的法律数据预训练是构建法律大模型能力的关键。“法信法律基座大模型”使用最高人民法院“法信”等多个法律大数据平台的全量数据资源,种类全、规模大、来源可信、权威度高,能够源源不断为大模型预训练和机器深度学习提供充足的法律数据语料,所以它被定义为法律行业应用法律人工智能提供基础数据支撑的“基座”。

二是可靠可控。“法信法律基座大模型”在法律行业广泛应用,一方面其研发和预训练需要大量合规的法律数据,另一方面其能力也主要是应用到各种法律业务场景,所以大模型的安全可靠、自主可控特别重要。“法信法律基座大模型”在语料来源合法性、标注规范性、输出合规性、内容安全性上严格遵照监管要求,所以它是法律行业应用人工智能安全与合规的“基座”。

三是广泛应用。“法信法律基座大模型”通过系统化聚集各类数据并集中化预训练,可以发挥数据资源规模效应、集约效应。也就是通过标准化知识工程、体系性安全评测等,可以降低行业应用大模型的成本。通过开放能力、共享接口、统筹算力,可以促进大模型在法律行业取得更广泛的应用效果,是体系化支撑法律行业应用人工智能的“基座”。

红星新闻记者 付垚 实习生 尤丽琴 北京报道

编辑 潘莉 责编 李彬彬