高分子材料因其结构的可编程性与性能的可调控性,广泛应用于航空航天、生物医药等高技术领域,是支撑现代工业社会的基石材料。然而,面对结构日益复杂的新型高分子体系,如何高效、准确地预测其宏观物性,并据此反推理性设计策略,一直是材料科学中的核心挑战。传统实验法周期长、代价高;而近年来兴起的深度学习技术虽展示出巨大的潜力,但其预测性能在很大程度上仍受限于材料“表示方式”的单一与不完整。当前主流模型往往仅依赖如SMILES序列、二维图或三维构象等单一的输入模式,难以全面捕捉高分子多尺度、多源的信息结构。
为突破这一瓶颈,中国科学院上海微系统与信息技术研究所俞文杰团队联合日本理化学研究所赵启斌教授,提出了一个创新的多模态、多域高分子表示与预测框架——Uni-Poly。该模型系统性融合了SMILES、2D分子图、3D几何构型和分子指纹四种结构模态,更首次引入基于大型语言模型生成的专业化文本信息作为“第五模态”,将领域知识以自然语言形式纳入模型之中,显著拓展了表示空间的深度与维度。
Overview of the Uni-Poly framework.
在包括玻璃化转变温度、热分解温度、熔点、材料密度与电导率等多项关键性能预测任务中,Uni-Poly均显著优于现有单模态或传统多模态方法。在难以预测的熔点指标中,R²值较最佳基准模型提升高达5.1%。此外,注意力机制的可解释性分析显示:不同模态在不同性能指标上展现出互补优势,例如,文本信息对于电子电阻率的预测至关重要,3D结构则对熔点尤为关键,而二维结构信息(如SMILES和分子指纹)则构成整体预测的主干骨架。文本中如“用于高温涂层”或“柔性佳”此类语义提示,往往成为揭示关键热性能的线索。
尽管Uni-Poly在性能预测上取得前所未有的突破,作者也指出了当前在预测误差控制(如Tg预测的平均绝对误差仍达22℃)及多尺度结构建模等方面仍有提升空间。下一步,研究团队计划引入更细粒度的聚合物结构信息,并拓展至共聚物等更复杂体系,以进一步推动模型在实际工程设计中的应用价值。
这项研究不仅仅是对已有数据的“叠加”,更是一场关于材料表示范式的深度重构。Uni-Poly以统一、多模态、高语义的表示方式“读懂”高分子,为高分子材料的智能预测、快速筛选与创新设计开辟了全新路径。该文近期发表于 npj Computational Materials 11:153(2025),英文标题与摘要如下,点击左下角“阅读原文”可以自由获取论文PDF。
Unified multimodal multidomain polymer representation for property prediction
Qi Huang, Yedi Li, Lei Zhu, Qibin Zhao & Wenjie Yu
Polymer property prediction is a critical task in polymer science. Conventional approaches typically rely on a single data modality or a limited set of modalities, which constrains both predictive accuracy and practical applicability. In this paper, we present Uni-Poly, a novel framework that integrates diverse data modalities to achieve a comprehensive and unified representation of polymers. Uni-Poly encompasses all commonly used structural formats, including SMILES, 2D graphs, 3D geometries, and fingerprints. In addition, it incorporates domain-specific textual descriptions to enrich the representation. Experimental results demonstrate that Uni-Poly outperforms all single-modality and multi-modality baselines across various property prediction tasks. The integration of textual descriptions provides complementary information that structural representations alone cannot capture. These findings underscore the value of leveraging multimodal and domain-specific information to enhance polymer property prediction, thereby advancing high-throughput screening and the discovery of novel polymer materials.