全球首个古农文大模型发布,农科院专家:未来任何一个细分行业可能都有自己的大模型

9月20日,受国家社科基金重大专项“中国古农书的搜集、整理与研究”支持,由农业农村部农业大数据重点实验室、中国农业科学院农业信息研究所联合湖北省图书馆、华中农业大学图书馆、郑州师范学院传播学院、中华书局古联(北京)数字传媒科技有限公司等单位开发的全球首个古农文垂直领域大语言模型“齐民”在北京正式发布。

“齐民”古农文大语言模型的发布,标志着我国在古农书数字化、智能化研究方面迈出了重要一步。10月23日,九派新闻记者联系到中国农业科学院农业信息研究所农业大数据挖掘研究室主任崔运鹏,他认为未来任何一个细分行业可能都有自己的大模型,“齐民”古农文大语言模型可以让更多人了解古人的智慧,对农业文化的传承有重要意义。

不仅农业技术相关专家、人文社科领域研究者,普通大众都有望在“齐民”古农文大语言模型里更快地寻找答案。崔运鹏介绍,未来他们还会开发一些衍生服务,除了技术侧的更新,还会“古今结合”,为农产品的品牌建设提供支持。

九派新闻:能介绍一下古农文大模型吗?

崔运鹏:“齐民”古农文大模型既是一个工具,也是一个平台。它基于我国古代上千本农业书籍文本调优训练,支持农业知识的问答、文本自动处理、语义检索等下游应用。检索功能是最强的,我可以通过古文检索古文,可以通过古文检索白话文,也可以通过白话文去检索古文。

图片

古农文知识挖掘平台。图/受访者提供

九派新闻:为什么现在我们还需要了解古农书?

崔运鹏:我国的古农书是古代农业知识和经验的结晶,涵盖了农业⽣产、⽓候变化、病⾍害防治等多个⽅⾯。这些书籍不仅为农⺠提供了实⽤的指导,也反映了古代社会对⾃然规律的认识和尊重。广义上的古农书包含古人生活的方方面面,可以说是古人的生活百科全书。《山海经》《天工开物》《本草纲目》中就有提到很多关于农业相关的内容,也可以算是古农书。

图片

《荔枝谱》讲述了种荔枝的方法。图/古农文知识挖掘平台

古农书记录了先辈们在耕作、种植、收获等⽅⾯的经验,这些知识不仅反映了当时的技术⽔平,也承载着地域特⾊和⺠族智慧。日本在古农书的重视和推广上就做得比较好,他们现在还会给农民普及《齐民要术》,农民种地遇到问题了,先去查《齐民要术》。因为随着农业技术的发展,我们发现不一定农业都要用高科技和狠活,古人的许多“土方子”也是蕴含了很多智慧的,更符合生态农业的理念。因为古人就非常注重人与自然的和谐,推广古农书也可以帮助大家去敬畏土地跟自然。

九派新闻:做古农文大模型的难点有哪些?

崔运鹏:现在大语言模型的技术方法都是现成的,我们很大一部分工作是训练数据和语料。分成二次预训练、监督微调、奖励建模、强化学习训练几个环节,就是让系统来学习古农书的规律和知识。

做古农文比现代文辛苦得多,现代文直接从网上查就行了,虽然我们就古农文电子资源和中华书局合作,但是古农文好多书都是手工整理的,工作量很大。举个例子,传统的现代文字,我们可以有模型去自动校对。但是古文就没办法了,有的字甚至都没见过,只能人工去做。

九派新闻:为什么会选择做大语言模型?

崔运鹏:未来大语言模型肯定会普及的,任何一个细分行业可能都有自己的大模型。目前模型小型化也是一个重要的发展方向,现在已经有很多小模型。大语言模型的大部分参数对一个专业领域来说,可能很少用到,而真正面向专业领域的模型参数量可以降低很多。

九派新闻:什么人会用到古农文大模型?

崔运鹏:大概分成三类,一个专业领域的农业技术的专家,一个是人文社科领域的,比如研究历史、文化的人。还有一类就是普通大众,他只要对古代人的生活感兴趣,也可以在古农书里搜索到吃喝玩乐和衣食住行相关的内容,不同的人有不同的用法。

九派新闻:未来古农文大模型会怎么发展?

崔运鹏:应该会像软件一样慢慢磨,慢慢更新。我觉得老祖宗的东西,研究的过程也挺有意思的,而且国家比较重视这个,应该也会有相关的支持,我觉得这个方向是比较有前景的。

我们还会开发一些衍生服务,除了技术侧的更新,还会“古今结合”,为农产品的品牌建设提供支持。例如,针对地理标志农产品历史文化信息挖掘系统性不强、文化价值承载力不足问题,为各地农产品找到历史依据。就是把当地的地理、农学、历史资料结合起来,为当地开发农产品、建设农产品品牌提供素材。

九派新闻记者 阳丹

【来源:九派新闻】

版权归原作者所有,向原创致敬