以往大规模量化数据库的构建多依赖结构化较好的史料,如今借助数字技术,历史学者能够进一步打破结构化史料限制,在更广泛的史料库中建构具有针对性的研究数据集。比如,笔者在民国清华留美生群体研究中发现,清华大学官方在民国时期出版过详细的《同学录》,全面记载了该校留美生的姓名、籍贯、求学经历等重要信息,唯独对他们的职业记载不够详细。只有六成学生有学成后的职业记录,每个人最多也只有一个职业,而且几乎都集中在调查开展的20世纪30年代初期。
笔者以清华公布的官方名单为基础,利用python语言编写爬虫程序,24小时不间断地在各数据平台按照给定姓名查找信息,先后自动检索获取到11529条潜在信息。通过人工比对,确认其中9112条信息为研究所需,占比79%。机器+人工的路径高速且有效实现了研究目标——1356位(约占96%)留美生由此具备了至少1项职业信息。此外,511位留美生被追踪到10个以上职业信息,占全部留美生的36%;追踪到3个以上职业信息的留美生有1172位,占全部留美生的83%。依靠技术手段收集和分析群体多节点关键性信息,突破了单一结构性史料的记载局限,形成数据链,发现历史真实,是一个重要改变。
技术方法的介入,不仅丰富了历史学者掌握与分析史料的工具,而且能更好地展现史学研究“发现未知”的功能,丰富史学研究的范式。随着科学革命发生和文理学科分野加剧,逐步形成自然科学重在发现未知物质,谓之一种“求是性”的学术;而人文社会科学强调理解已知现象,谓之一种“解释型”的学术。但数字技术的不断介入,无论是文本挖掘、社会网络分析还是既有的量化研究,都强调通过对史料的重新组合和定量分析,发现个体阅读所不易甚至无法发现的历史。
在努力实现历史研究以“求真”为最高追求的同时,数字技术逐步丰富了历史学的研究范式,即由以解释为主,走向发现与解释兼顾的历史研究。这种发现往往能够做到更长时段和更广泛群体的观察,从而在研究对象、研究手段和理论探索层面更好地对话社会科学。有研究者将数字技术比喻成显微镜,帮助学者观察到更多微观史实,其实数字技术或数据库平台还可以看成微观数据的加速器或对撞机。被组织起来的史料,在数字技术作用下加速运动,并在各种数据的交叉和对撞过程中呈现出可被观察到的特征、趋势和规律,进而带来历史学研究范式的变革。