追平Google ScreenAI,国内首个UI大模型是如何炼成的?

全文1936字,阅读约需6分钟,帮我划重点

划重点

01国内首个UI大模型Motiff妙多通过高质量专业数据和个性化模型架构,实现了效果和能力上的超越。

02为此,Motiff妙多通过提高知识密度、生成合成数据,构建了一批优质UI数据,并个性化调整模型架构。

03与此同时,Motiff妙多采用切图策略,保持长宽比和精准定位,提升模型在UI领域的表现。

04基于自研大模型,Motiff妙多开创了AI复制、AI设计系统等功能,使AI生成UI功能迅速跻身行业前列。

05未来,Motiff妙多将继续迭代大模型技术,为设计师提供更高效、更智能的设计工具,推动UI设计行业变革。

以上内容由腾讯混元大模型生成,仅供参考

随着大模型加速应用落地,提高模型训练效率成为更受关注的议题。在10 月 18 日召开的 2024 QCon 大会上,Motiff 妙多 AI 负责人赵薇分享了国内首个 UI 大模型的开发经历。赵薇介绍,相比于常见的“大力出奇迹”做法,Motiff 妙多选择了“四两拨千斤”。凭借高质量的专业数据和个性化的模型架构,Motiff 妙多大模型在效果和能力上超越了 GPT-4o 和苹果的 Ferret UI,并追平了训练数据多 40 倍的 Google ScreenAI 大模型。

图片(Motiff 妙多 AI 负责人赵薇 QCon 演讲现场)

Motiff 妙多大模型在数据、模型架构和训练方法上进行了多次创新。UI 领域的训练数据比通用领域少一个量级,Motiff 妙多通过提高知识密度、生成合成数据,构建了一批优质 UI 数据,并根据 UI 领域需求个性化调整模型架构。这些调整使得 Motiff 妙多大模型适配 UI 领域特点,具备“支持输入高清”、“保持图片长宽比”和“精准定位”三大优势。

“基于自研大模型,我们能以较低成本快速孵化 AI 应用。”赵薇表示,自研大模型加持下,Motiff 妙多开创了 AI 复制、 AI 设计系统等功能,AI 生成 UI 功能也迅速跻身行业前列。Motiff 妙多大模型不失为一个典型的样本:当通用大模型在专业领域“失灵”时,AI 应用企业如何通过自研领域大模型助力应用创新?

大模型对齐训练“少即是多”,数据质量是关键

当前,通用大模型在处理复杂任务和理解多种数据方面表现出色,但在特定领域依然存在明显的局限性。例如,GPT-4 在 UI 领域错误率超过 70%,理解和生成用户界面表现不佳。作为 AI 时代设计工具,Motiff 妙多需要构建一个“UI知识体系完整”和“UI技能丰富”的专业大模型。

构建大模型的首要问题是数据。为克服UI 领域高质量图片数据量较小、数据任务不够丰富的挑战,Motiff 妙多通过增加知识密度和加入基于专家模型生成的合成数据,构建了一批高质量、具有专业知识的 UI 数据。

“数据量少并不是问题,高密度才是关键。”赵薇表示,在领域迁移中,不用海量的 UI 领域对齐数据,依然可以实现有效对齐。

如何提高信息密度?Motiff 妙多对 UI 数据进行了多维度的内容分析和层次结构描述。对每张UI图片,Motiff 妙多从布局、组件、功能、视觉效果和设计风格等多维度深入分析,并增加了 UI 特有的结构和定位知识。在随机采样的 1 万条数据中,每张图片的描述 token 数量从 20 增长到 628,信息密度提升了 30.4 倍。

图片

在生成合成数据过程中,Motiff 妙多引入了多个专家模型,将大量的专家知识提炼到合成数据中。以图标描述数据的合成为例,在整合人类专家知识后,Motiff 妙多的数据更加细粒度且情境相关。比如,针对“爱心”图标,Google 的 ScreenAI 大模型只能描述图标类别,而 Motiff 妙多大模型能够生成具体的功能描述,如“收藏按钮”。

图片(通过长期积累的专家模型,为合成数据注入大量专业知识)

丰富多样、接近真实世界的数据使得训练出的模型具备解决复杂问题的能力。在五个行业公认的 UI 能力基准测试集中,Motiff 妙多大模型的各项指标均超过了 GPT-4o 和苹果的 Ferret UI,多项指标追平谷歌的 ScreenAI ,并在 Screen2Words(界面描述与推断)和 Widget Captioning(部件描述)两大指标上超越了 ScreenAI 。要知道,ScreenAI 在训练时用了近 4 亿条训练数据,相比之下,Motiff 妙多大模型所用的训练数据不到其 2%。

强化领域模型优势,快速孵化 AI 功能

在完成数据收集与构建后,便进入模型基座与训练阶段。多模态大模型在近年来快速发展,但大多缺乏对 UI 领域的特殊适配。赵薇指出,通用模型在 UI 领域容易出现文字识别幻觉和定位偏移,这让Motiff 妙多团队更加重视视觉编码器和位置感知训练。

通用视觉编码器在处理高分辨率和复杂布局时有明显的缺陷,容易导致信息丢失。因此,Motiff 妙多采用切图策略,将高清图片切成多张小图送入模型,确保信息完整并提升细节敏感度。

图片(Motiff 妙多大模型架构)

Motiff 妙多通过保持长宽比和精准定位,进一步增强模型表现。通用大模型通常忽视了精准定位的能力,而 Motiff 妙多通过补充切割后小图的位置信息,提升了模型的位置感知。

通过改进模型基座,Motiff 妙多大模型更适配 UI 领域任务,具备 “支持输入高清”、“保持图片长宽比”、“精准定位” 三大优势,能更好地理解和处理 UI 设计中的复杂元素。

“基于大模型的 AI 应用有启动成本低、算法建模简单、任务更加复杂等特点。”赵薇说。以 Motiff 妙多大模型为底座,团队迅速开创和升级了 AI 设计系统、AI 生成 UI 等功能。

图片

以Motiff 妙多首创的 AI 设计系统功能为例,该功能能精确定位并理解设计稿中的所有设计组件。对于难以区分的组件(如button 和 tag),Motiff 妙多大模型都能准确识别,准确率提升至 95% 以上。

赵薇称,Motiff 妙多计划在未来持续迭代大模型技术。实践证明,AI 在 UI 设计中的应用潜力巨大,Motiff 妙多将致力于 AI 与 UI 设计的深度融合,为设计师提供更高效、更智能的设计工具,推动 UI 设计行业变革。