AstroOne亮相，最“懂”天文的大语言模型来了！

文汇

2024-10-31 21:40发布于上海文汇报官方账号

AstroOne在中国天文学会2024年学术年会上亮相

10月30日，天文大语言模型AstroOne在中国天文学会2024年学术年会上首次亮相，引发天文学界广泛关注。

AstroOne由之江实验室联合中国科学院国家天文台共同打造，拥有700亿参数、320亿tokens文本语料，经过了1万道天文学评测数据集的测评，是当前天文知识能力最强的大语言模型。

作为天文学的“新质生产力”，AstroOne有望促进学科交叉、突破领域边界，探索未知领域中的未知问题，加速天文发现。

AI赋能解码“天之语”

天文学界常说“以天之语，解物之道”，是要运用天文观测所得来揭示宇宙运行规律。但“天之语”异常嘈杂，且信息量巨大，处理每年产生的百PB量级天文数据是一个难题。

“传统天文研究亟需人工智能技术赋能，以突破天文数据处理困境。”国家天文台台长、党委副书记刘继峰表示。

据介绍，AstroOne能够为天文研究提供强有力的辅助。除了快速阅读和学习专业文献外，它可以快速检测研究中的潜在错误、数据异常或逻辑矛盾，减少人为疏漏。

它还能从海量文献中提取和核对信息，辅助验证假设和结果的可靠性。与此同时，AstroOne能实现跨学科知识推理与整合，帮助天文科学家突破知识边界、启发创新灵感，生成富有想象力的研究假设。

“今天，计算、数据和模型三者规模的快速增长正在推动科学研究范式的变革。我们希望借助天文大模型AstroOne，帮助天文科学家和天文爱好者更好地解读天文观测数据、更高效地进行科学探索，做出有影响力的研究工作。”之江实验室“科学基座模型”科研任务总体部技术总师薛贵荣介绍。

跨学科协作攻关科研难题

今年5月起，之江实验室和国家天文台共同举办“天文大模型培训班”，培养“AI+天文”复合型人才，用人工智能赋能天文研究。天文大语言模型AstroOne，正是在天文班学员的相互协作下诞生的。

天文大模型培训班开班仪式

“未来，我们将以人工智能的天文应用为目标，助力我国在国际天文研究领域走在发展前沿。”国家天文台罗阿理教授说。

天文班的攻关成果不止AstroOne，双方还合作打造了一个天文图文模型和四个天文学专业领域模型——用于快速捕捉极端瞬变源的Falco、进行恒星普查的SpecClip、精确预测太阳活动的SolarGPT以及实时识别GRBs等高能瞬变源的GRBs X射线探测模型。

“我们收集了900万组天文图文对，并通过大模型技术生成了20万组图像问答对，构建了目前规模最大的天文图文数据集。”天文班学员、之江实验室天文计算研究中心高级研究专员唐晓瑜透露，接下来，这些模型将陆续发布。

“这只是一个起步，AI+天文还有很多事情要做。”之江实验室党委副书记赵新龙表示。除了天文领域，实验室正在打造一个为AI for Science提供算力、数据、模型、工具等资源和服务的公共平台，未来可以为各个科学领域研究效率提升和成果产出提供有力支撑。

　　作者：刘琦

文：刘琦图：受访者提供编辑：刘琦责任编辑：任荃

转载此文请注明出处。

查看原图 197K