前天阿里的 “千问”上线了,昨天蚂蚁集团也发布AI新产品“灵光”,主打“自然语言30秒生成小应用”和全模态内容生成,被定位为“新一代 AI 应用生成器”。更加巧合的是,昨天有网友拍到了马云现身蚂蚁园区的照片。
与目前主流的 Gemini、ChatGPT 等大型语言模型相比,“灵光”重点突破不再停留在提供文本答案、静态图片或代码片段,而是能够直接生成包含 3D 模型、交互式地图、音视频处理等能力的多模态应用。蚂蚁集团表示,这将显著降低 AI 应用的开发门槛,让普通用户以一句话即可构建具备动态逻辑的工具和服务。
“灵光”由蚂蚁百灵大模型提供技术支持,包括理解、推理与跨模态生成的核心能力。据了解,灵光基础能力来自开源的 Ming-Lite-omni-Preview 及后续迭代模型,支持图像、语音等多模态输入。在图像生成方向,Ming-flash-omni Preview 采用“生成式分割即编辑”的协同训练方法,将视觉理解与生成任务统一学习,使模型能够依据用户指令精确调整物体关系与细节。在语音能力上,ContextASR 与方言感知 ASR 在多个基准测试中刷新性能,为语音输入场景提供稳定支持。
蚂蚁在训练 Ling-Plus 与 Ling-Lite 系列模型时,采用国产芯片(包括倚天、昇腾等)构建计算集群,并大规模应用混合专家模型(MoE)架构,以提升计算效率。蚂蚁称,通过调度优化与 MoE 训练策略,相关集群在部分任务上已实现接近主流高端 GPU 集群的训练效率,实现了对标能力,同时可将训练一万亿 tokens 的成本降低约 20%。
“灵光”的推出将进一步推动 AI 生产力工具从“内容生成”迈向“应用生成”,带来更高层级的自动化能力。相关讨论也聚焦于生产关系的变化,当 AI 辅助完成应用搭建、界面构建与逻辑实现后,软件开发的门槛将大幅下降,未来开发流程可能从依赖工程师技能转向依赖创意与业务逻辑本身。蚂蚁表示,“灵光”旨在让更多用户能够以自然语言使用复杂的数字能力。随着生成式 AI 从文本输出扩展至可执行应用,未来数字交互的边界将在普惠性与专业性之间重新定义。