随着超高清图像、超高清视频在各行各业多场景的不断落地和普及,对于终端设备、硬件芯片、软件技术的需求也急剧提高,迫切需要更强大、更灵活的解决方案。
近日,安谋科技顺应行业趋势,正式发布了首款本土自研的“玲珑”DPU(显示处理器),包括D8、D6、D2,以及新一代“玲珑”VPU,包括V710、V510。
安谋科技前身为Arm公司中国子公司,自独立运营以来,安谋科技坚持以自研业务技术创新与Arm技术授权相配合,聚焦智能汽车、智能物联网、基础设施、移动终端等核心领域进行战略布局,为国内合作伙伴提供高质量且多元化的异构计算平台。。
安谋科技的自研产品线包括“星辰”CPU、“周易”NPU、“山海”SPU、“玲珑”VPU多媒体处理器等。如今,随着“玲珑”DPU显示处理器的加入,安谋科技的产品组合更加完备。
安谋科技自研业务目前已成功授权超过220家本土厂商,相关芯片累计出货量突破5亿颗。
可以看到,“玲珑”系列是其中产品最多的,同时涵盖了ISP、VPU、DPU三条线。
据了解,安谋科技“玲珑”多媒体团队成立于2019年6月,目前已有超过80名成员,分布在深圳、上海、北京三地。
团队核心成员拥有20多年的行业开发经验,是国内最早一批从事视频显示、编解码处理的工程师,掌握了算法、RTL、固件、软件、验证等全流程。
此次发布的“玲珑”D8/D6/D2 DPU系列是安谋科技本土自研的首款DPU产品,但也并非无根之水,其前身就是Arm Mali?-D71/D51/D37 DPU系列产品。
它在前代产品基础上充分融入了安谋科技的本土创新成果,推动显示处理技术深入迭代,也更好地适应中国市场、服务国内产业客户。
“玲珑”DPU的使命,就是满足显示处理器需求的井喷,可支持更多屏幕、更大屏幕、更好屏幕、更多应用、更安全显示、更友好系统等等。
包括8K/10K等极致高清、HDR 10/HDR 10+/HDR Vivid等动态高画质、车载娱乐/高级辅助驾驶/XR扩展现实/智能穿戴等延伸场景。
“玲珑”DPU拥有高效的实时处理能力,可以灵活地按需配置架构,具备低延时、低系统带宽、高数据安全等特点。
在确保高性能、高画质的同时,它还能有效控制成本、功耗、带宽,并与Arm架构深度协同。
“玲珑”DPU基于优化的多核架构设计,单核性能最高可处理每秒8K60FPS的实时显示输出,或者能同时处理四路每秒4K60FPS。
它最多可支持多达16个层的内容输入与叠加显示,有效促进系统资源的利用和管理。
“玲珑”DPU具备极为齐全的图像处理技术,包括:
- 深度流水线设计,以支持SDR/HDR内容输入输出
- Gamma伽马预处理/后处理、Gamut色域管理、色彩调整
- 高质量缩放,最多缩小6倍、放大64倍
- 水平/垂直翻转、90/180/270度旋转,以及上述翻转、旋转的任意组合
- 丰富图像、视频格式与转换
比如说HDR-SDR色调映射、Rec.2020色彩空间、HDR10视频解码,都可以在它身上找到。
得益于与Arm架构的深度协同,“玲珑”DPU支持AFBC(Arm帧缓冲压缩)技术,确保高性能、高画质的前提下,最大限度地节省带宽、功耗。
内置Arm MMU-600/700(系统存储管理单元),其中包括TBU(转换缓冲单元),可针对不同显示场景进行专门优化,进一步降低访问延迟,更好地管理内存。
支持Arm TZMP(TrustZone媒体保护),软硬一体化保护数据安全,包括常规显示、受保护显示、受信任显示。
该产品线目前包括三个不同版本,“玲珑”D8主要面向高性能显示的应用场景,性能最为极致,只需单个IP,就能支持单路8K60FPS或者四路4K60FPS的实时显示。
“玲珑”D6针对性能能效优化显示的应用场景,相对平衡,可以支持单路8K30FPS/4K120FPS,也可支持双路4K60FPS。
“玲珑”D2则用于高能效比显示的应用场景,但效率也非常高,支持单路2K60FPS。
如果三款型号都不能很好地满足你,“玲珑”DPU还可以通过可配置的架构、管线,匹配不同客户的特殊需求,获得最优化的性能、功耗、面积(PPA)。
比如包括AXI接口、显示引擎、输出接口在内的显示核心的数量可以自由定制,流水线可以任选1-4条,比如输入内容管理可以灵活配置,比如16个层组合加入了独特的职能层技术。
它甚至开放了协处理器接口,可以接入客户的独特IP,组成专属解决方案。
对比前代产品Arm Mali-D71/D51/D37 DPU,全新的“玲珑”D8/D6/D2 DPU实现了全方位的飞跃,尤其是核心性能提升了2倍,再加上安谋高质量、完整、快速的产品交付流程,可以充分满足智能应用场景的多元化显示需求。
【“玲珑”V710/V510 VPU:首批支持H.266标准的超高清视频处理核芯】
这是一个视频为王的时代,更是是一个高清视频需求井喷的时代,而海量高清视频的传输需要更高级、更高效率的视频编解码与压缩解压技术,从而在同等甚至尽可能高的画质下,大大降低传输与存储成本。
比如最新的视频编解码技术标准H.266(VVC),在2020年就已发布,经过四年多的准备,行业正在全方位拥抱,包括国内头部互联网巨头。
H.266拥有极高的编码效率,相比于H.265(HEVC)同等画质下可节省50%的流量(存储空间),还支持HDR 10-bit、UHD/8K视频。
“玲珑”VPU产品历经三年的迭代与优化,已经授权超过30家国内合作伙伴,广泛应用于手机终端、PC、智能汽车、智能安防等众多场景。
第一代的V7/V5就广泛支持H.264、VP8、VP9编解码,AVS2、H.263、MPEG2/4、RealVideo 8/9/10、AVS/AVS+/AVS2解码,第二代的V8/V6加入了AV1解码。
最新的V710/V510又重点加入了H.266编解码,也是国内首批同时支持H.266编解码的视频处理器。
“玲珑”VPU采用多核心、多格式编解码器融合的灵活可编程架构设计,单个核心的编解码性能即可高达每秒4K60FPS。
它基于16nm FinFET制造工艺,在支持多标准编解码的同时核心面积做到了最小。
其中,标准版本不超过1.83平方毫米,定制版本可小于1.5平方毫米。
“玲珑”V710/V510 VPU的内核架构设计是完全一致的,只是规格略有差异。
其中,V710最多8个核心,最高支持到8K分辨率、120FPS帧率。
V510最多4个核心,最高支持到4K分辨率、240FPS帧率。
对比上代V8,V710/V510 H.264/H.265的编码性能提升了2倍,X265 very slow的编码质量提升了20%。
对比上代V6支持的H.265,V710/V510支持的H.266编码质量提升了30%。
另外,4K/8K编码质量提升了25%以上,特别是新增了屏幕显示菜单(OSD)的前处理功能,可以更好地兼顾主流市场、新兴应用的实时编解码需求。
举例来说,在一个多人打篮球的1080p视频中,也是测试对比编码质量的典型场景。
同样的PSNR(峰值信噪比),“玲珑”VPU第一代的视频码率约为8Mbps,第二代降到了6Mbps,如今只需要大约4.8Mbps,节省了多达接近70%,但画质还是一样的。
再看主观质量,“玲珑”VPU也做了大量优化。
空间优化方面,对比关闭、打开SSIM AQ的画质不同,尤其注意看打开之后的茂密树木边缘、水中石头倒影都更加清晰可辨。
时间优化方面,对比关闭、打开的不同,尤其注意打开之后的路面沥青颗粒感更加清晰,不再是模糊一片。
这些差异乍一看不大,但对很多行业客户来说非常关键,容不得马虎。
“玲珑”V710/V510 VPU同样支持AFBC技术,从而做到了GPU、VPU、DPU全流程支持,可将视频内带宽节省大约35%。
关键它是无损的,即不会造成画面质量的损失。
根据端、边、云等不同场景的应用需求,“玲珑”V710/V510 VPU可分别提供4-8个核心、1-4个核心等多种配置。
在大幅节省存储空间、带宽成本的同时,它们还能轻松按需配置,确保系统性能、功耗、面积的最佳平衡。
为了帮助开发者基于各种视频编解码标准进行快速部署,“玲珑”V510/V710 VPU在硬件方案的基础上,还提供了一整套完备的固件工具、软件支持。
得益于软硬件交互的架构设计,开发者还可通过软件升级,对既有硬件进行灵活的扩展和优化。