恺望数据CEO于旭:自动驾驶数据痛点及对策

图片

作者 / 曹锦

「自动驾驶技术发展得太快了,从去年2D变成3D后,今年4D又来了;正当我们将4D方案准备得差不多的时候,BEV已经成为了主流。再接下来,端到端又会成为新的需求。」在近日的一场分享活动上,恺望数据表达了自己的感慨。这样的发展速度,无疑令上游供应链面临前所未有的压力。

图片

和许多新成立的初创企业一样,恺望的体系还没有完全成型,而是以一种开放的状态随时面对新的变化。也是因此,他们对业内数据需求的变化尤其敏感。在恺望宣布完成Pre-A轮融资的第二天,首席智行官与该公司创始人、CEO于旭进行了对话,首次通过数据公司,全方位了解自动驾驶数据的价值。

新路线带来的新难度

今年,BEV、Occupancy被视作城市NOA的必经之路,但是此类层出不穷的新算法,对数据标注和方案增加了更多难度。

「当BEV的3D映射转为2D时,需要将每一个点都对应准确,这就存在参数对齐的挑战;至于Occupancy,由于它是将各种物体用Clip的方式标出来,这就对于快速识别和分类能力提出了更高的要求。」于旭介绍称。

展开来说的话,4D-BEV的数据通常由点云和数十、数百张图片组成,在标注时需要对其做叠加和缝补。这首先面临的问题就是加载慢,其次就是在叠加时容易参差不齐,不够贴合。

图片

从于旭为我们展示的案例来看,恺望通过Web多线程技术,已可实现「在8G内存电脑上运行的5千万点云数据标注」,解决了加载问题。不过,稠密的点云在我们看来,还是一团白雾一般,似乎令人无从下手。

「针对这样的稠密点云,我们首先会在着色上做出区分,从一大片『白茫茫』中先快速分离车道线,然后标注员可利用工具中的放射线,明确车辆的对应位置。同时,我们还用彩色的圆形图标将车标示出来,从而让其位置更加明确。」

这些方法,源自于恺望最近发布的「可支持4D-BEV感知算法的数据拼接及数据标注工具链」,该工具可支持大数据流并行作业,官方称可支持200万人同时标注,目前已在车企应用。

城市NOA的数据课题

当车企开始比拼城市NOA功能后,数据的复杂度和量级都呈现了大幅增长。这对于数据方案供应商来说,又是N个新的课题。

「城市NOA的浪潮,与人工标注的更高需求,是呈正相关的。」于旭认为,在城市NOA的多样化场景中,数据规则存在大量变化。再加上车与车之间传感器的差异,以及各式道路拓扑结构差异等因素,这对无图化目标以及数据标注都是较大的挑战。

图片

「数据的价值,一是看规模,二是看质量。」她表示,在规模上,现在的行业痛点之一是法规限制。例如城市NOA中所涉及的不同城市、不同场景数据,目前还难以快速进行大规模采集。

至于质量问题,于旭介绍称,数据精度对模型训练的影响很大,但目前,包括车企在内的需求侧,留给数据处理的时间非常少,有时就只有一个月,这就为标注质量带来了巨大的难度。

「在真实数据采集受限的前提下,必然要借仿真数据弥补Corner case的缺失。但由于仿真的传感器参数与真实情况还存在差异,有可能导致数据不够精准。现在大家通常会采用仿真+AI的策略,不过还是需要基于真实场景进行泛化。」

于旭介绍称,目前恺望的做法是,与其他合成数据合作伙伴一起,基于主机厂的场景需求,围绕具体的Corner case进行快速的场景泛化。「这就是应对当下『既要规模化,又有区域和法规限制』的一种解法。」

同时,恺望也正在与多家出租车车队合作,通过老司机对路口的通过方式进行判断。「这就像专家层先做一层的标注,然后再用标注员去做规模化的复制,提高准确度。

大模型将催生新的角色

自从「自动驾驶大模型」的概念出现后,虽然争议从未停止,但其自动标注能力却似乎预示着人工标注的边缘化的趋势。也曾有业内人士提出,在大模型时代,人工标注或将成为一种少数基础需求,甚至不再被需要

但于旭却觉得正好相反。她认为,在大模型在涌现过程中,恰恰需要大量的人工标注数据。而当其发展到一定程度时,大模型会降低算法门槛,导致各类应用都如同围绕一个「中台」,来实现不同场景的功能。

图片

到这个时候,数据标注的作用就不只是服务算法了,新的客户群很可能会扩展到应用层,我们的角色将成为大模型和应用场景之间的衔接者。这其中包括了数据工具链,以及应用场景上的标注数据库,这两块都将是新的增长点。」

另一方面,在大模型向专业、深度方向发展的过程中,有限的专家资源,以及更高的标注成本,都有可能形成瓶颈。对此,于旭表示,可通过筛选主观性问题、提炼专家方法论等方法来降低难度;或者只让专家提出策略,再将数据按照难易级别划分,交给基础标注/审核人员来进行规模化操作。

于旭认为,大模型还需要更多来自政府和各个行业的力量。「目前大家尝试做的行业大模型,还是从促进小模型迭代的角度出发。大模型需要的数据源头,要像水龙头一样,这需要各个行业共同努力。」

对自动化标注的思考

虽然现在恺望正在与高职院校合作,大幅扩展人工标注员的人数,但其实也将「自动化标注」视作必然方向。

图片

「自动化将会从辅助,走向深度,然后逐渐迭代。我们希望自动标注能拥有核心方法论,以适配各种各样的公司。」但是于旭所指的「自动化标注」,既不能是Demo,也不能只针对特定任务,而是实现大规模量产,这才能创造行业的转折点。

不过值得注意的是,当恺望运用了自动化工具之后,人工标注的需求还是只多不少。

「因为自动驾驶等行业的长尾问题都还是比较多的,在同样数据量的前提下,基础数据的标注人员数量还不会呈现下降,同时还将新增类似专家、合规审核的高阶标注员。」

数据服务的「难,疼,急」

「难,疼,急」是恺望在分享项目需求与交付难度时,总结出的3个关键词。

「难」就是开头提到的技术变更速度太快,这需要数据除了工具链不断更新;「疼」是指部分主机厂客户提出的花式需求,以及供需双方不同人员日常存在的需求理解偏差。

不过归结起来,挑战最大的似乎还是「急」——这是指企业客户在拔高精度标准、对标注员和工具都提出更高需求时,却只给出极少的时间去统筹、研发和筛选标注员。

「没有人等你,没时间给你去找一个技术大牛,也不可能让你花几个月来开发一套新工具。我们只能在低代码可行的基础上,将能用的『锤子刀子』赶紧拼起来,以最快的速度解决问题。」

图片

于旭以某头部大模型公司的项目举例,当时他们需要通过Reward Model,人工为数学解题答案打分,选出最合理的解答格式。本来,于旭对这套打分工具预期的开发周期为一个月,而最终却只用了两周,并获得了较好的反馈。

这一方面是出于恺望对业务场景的了解,另一方面就是因为「没人会给你时间」,能做的只有迎难而上。

「『难、疼、急』一方面是指我们面临的『既要又要还要』式需求,另一方面就是指如何在极短的时间内大幅提高质量和效率,同时还要降低成本。」

在此背景下,如何在极为有限的时间内,让标注员尽快理解需求,保持高效准确,也成为一大命题。

尤其在大模型时代,垂类众多,匹配难度也随之增加,于是恺望借鉴了Open AI的画像匹配方式:「我们在平台底层有编排系统,可以记录标注员擅长的内容或者知识面,从而快速地与某些需求做拆解和匹配。」

虽然目前在成本层面上,数据行业价格内卷严重,但于旭认为,这一行业正在进入新的阶段。除了价格,系统性工程的能力将直接给企业分级。而且,未来的数据方案供应商不仅要做传统的标注,还要提供补全数据闭环的思路和通用工具链。

「原来的施工队和现在的平台化公司相比,差距将一目了然。」
※「首席智行官」是机器智行推出的高端访谈栏目。本栏目将邀约智能出行领域的代表型人物,深入表达观点,记录时代故事。
关于首席智行官
「首席智行官」为机器之心推出的智慧出行垂直媒体,我们时刻关注业内动态及权威专家最新观点,不定期深度访谈业界代表人物,内容涉及自动驾驶、新能源、芯片、软件、汽车制造和智能交通等方向的前沿研究与技术应用,透过权威思路以洞察产品、公司和行业,帮助汽车领域专业从业者和相关用户了解技术发展与产业趋势。