影响钙钛矿太阳能电池(PSC)效率的因素是多样且复杂的。大量的实验试错或者精确的理论计算成本太高,而机器学习(ML)可作为一种新的可选择的方法。ML代表了科学的第四范式,是一种完全由数据驱动的方法。ML通过收集已有的数据将研究内容之间的因果关系转化为相关关系,就像人类从发生的历史事件中总结经验一般。在面对重大的实验挑战和迫切的进步要求时,理解“是什么”比理解“为什么”更为重要,因此ML恰巧符合实现PSC商业化的迫切需求。
在早期阶段,ML主要用于预测PSC中钙钛矿材料的带隙、形成能及其他属性。然而,由于数据量有限,难以提高模型的预测精度。此外,基于量子力学的密度泛函理论(DFT)在目前材料科学研究中已经很成熟,其精度远高于ML。尽管如此,需要明确的是,ML虽然不能取代DFT计算在属性预测中的作用,但它保留了计算成本低的优势。最近,研究者在使用机器学习方法筛选 PSC 器件界面材料方面取得了重大进展。比如Liu等利用ML发现了应用于p-i-n型PSC的有效钝化剂ThEACl;Zhi等应用ML发现了2-PPAI是一种良好的2D钙钛矿钝化剂;Xu借助ML发现了阴离子钝化剂ST。这些工作证明了尽管数据量受限,ML在某些研究方面仍有巨大的应用前景。虽然它不能准确识别具有特定属性的材料,但可以有效地缩小选择范围。这是通过 ML 模型的有效数据学习和正确的模型解释方法来实现的。
但是,小数据集仍然是ML应用面临的主要问题。2022年Jacobsson等建立了一个样本数量超过42000个PSC数据库,数据来源于2020年2月之前所发表的文章,并且作者鼓励全球PSC领域的研究者上传自己的实验数据,这项工作最终发表在了Nature期刊上。该数据库推动了ML在PSC领域的应用,但是由于不同研究团队的实验环境不同,报道的方式不统一,从而导致数据存在大量缺失值,不能直接用于ML模型训练。毫无疑问,PSC数据库的建立是一个非常好的开端,规模庞大且数值完整的数据库需要PSC领域更多的研究者来共同实现。
数据积累是一个缓慢的过程,在积累数据的同时,优化模型也是非常重要的。在最近的一篇报道中,Li等人应用了迁移学习和深度学习来预测钙钛矿的形成能,他们使用尖晶石来扩展钙钛矿数据,因为它具有与钙钛矿相似的晶格结构。当机器学习从大量尖晶石数据中学习时,只需要相对少量的钙钛矿数据来校正模型,就可以实现更高的预测精度。该工作也为解决小数据问题提供了新的思路。