Ozone+星星海,腾讯自动驾驶专有云低成本解决方案取得突破性进展
【汽车焦点 快讯】
随着各大汽车厂商相继大力投入自动驾驶业务,动辄数十PB的数据注入存储和每天数PB的数据IO参与计算已经成为自动驾驶开发的常态。如何降低自动驾驶开发过程中的海量数据存储成本和高性能、高可靠、高扩展性需求是腾讯自动驾驶专有云团队的当务之急。
“自动驾驶开发行业当前的核心需求是合规存储,核心痛点是成本高。” 项目组对当前自动驾驶开发行业的痛点了解颇深:“行业周知自动驾驶研发成本高,周期长。虽然很多车企都在大力投入软件开发,但是面临长期投入和快速回报的问题,减少预算压力、降低开发成本是非常必要的。然后是合规,以及如何安全的存储。数据和算法是自动驾驶开发者的核心机密,不能有任何闪失。”
自动驾驶研发所需要的高精度地图各种场景数据,需要通过采集,标注,分析,合规等一系列流程,在云端存储和调用,需要高性能高密度服务器和配套设施,储存成本每年往往高达上亿元。而自动驾驶的快速进展,也需要与之相应的服务器不断扩容,每天有数十甚至数百TB的新增数据注入,经过智能化提取和标注,产生结构化、非结构化等各种存储类型需求,共同形成了数据湖,来满足自动驾驶算法训练、仿真、评测等迭代过程,带来的是成本增幅的线性成倍增长。
为此,腾讯汽车云团队和腾讯大数据团队合作建立了专项攻坚项目组,针对自动驾驶开发数据采集、存储和开发场景下的需求特点开始了选型和攻坚。历时将近一年的打磨,项目团队选用Ozone+腾讯云星星海自研服务器和自研JBOD的软硬件一体化解决方案,将存储方案整体集群读写带宽提升50%,存储硬件成本降低60%以上,达到业内领先水平,让车企的高精度地图的存储成本可以大幅度消减。
Ozone作为对象存储和大数据存储的主要解决方案,特别适合自动驾驶开发场景下百亿级海量小文件的存储需求,解决融合存储需求的同时极大的存储成本。作为脱胎于Hadoop的开源存储项目,Ozone的目标是打造大数据场景下融合文件系统和对象存储的统一方案,生态上支持Hadoop FS,对象/S3,本地路径Mount和K8s CSI等多种访问方式,针对大数据场景下的小文件和集群scale up做了很多优化。同时,Ozone分布式架构和利用Raft协议维护的一致性保证了Ozone存储集群在和计算节点分离部署时更强的集群管理能力,可以说,在大数据生态中,Ozone对于Hadoop Capitible和对象的整合能力决定了其存算分离部署场景下的排头兵位置。
在硬件方面,针对计算存储分离部署场景下,大数据产生的海量数据存储容量和成本问题,项目组团队在腾讯云自研星星海硬件机型中走出一种全新的尝试。腾讯星星海实验室是腾讯首个硬件工程实验室,主要专注于服务器等硬件系统架构设计和前瞻性基础技术研究,已经在计算、存储、网络等领域研发了领先的技术和产品。针对汽车云海量存储的性能和成本诉求,自研星星海服务器进一步优化单个数据节点的存储上限,从而极大的减小了集群规模,降低了储存成本。
针对客户单个集群数十PB的存储需求,项目组使用自研星星海+自研JBOD的硬件集群配置,追求在集群化管理成本最小的代价下,可以容纳更多的用户数据,最大化提升集群利用率。利用Ozone + 自研星星海服务器的组合,可以为自动驾驶开发者提供超低成本的专有云解决方案。
腾迅汽车云Ozone + 自研星星海服务器解决方案核心技术优势:
1、元数据管理成本和消耗低。数据以三副本的方式写入,总体元数据消耗在0.5%以下。单个Ozone元数据Master节点可以管理上千个数据节点,同时支持元数据进程和数据进程部署在同一节点上。Ozone的部署方式可以最大化利用每一个星星海机器的存储能力,每一个星星海+JBOD的机器都可以当做数据节点。
2、MultiRaft特性和特有的均衡算法,保证数据强一致性和关键性能指标。
3、结合自动驾驶开发的业务特点,Ozone提供了大数据存储、对象存储和文件系统等多种访问语义,真正意义上做到了融合存储的方案,汽车云从大数据Spark场景到仿真数据通过Windows Samba和Linux上NFS等模式都统一写入同一个Ozone集群。这样的访问模式配合星星海的硬件存储能力,在存储计算分离部署下,给予了用户全新的资源整合的方式,同时极大的保证了数据强一致性和高冗余度。
技术追求无止境,每一个技术点项目团队都力求极致,最求低成本高性能就要利用Ozone的MultiRaft特性发挥JBOD每块磁盘的作用,将单节点的IO性能和带宽稳定在满足业务需求的水平。网络抖动和心跳丢失、IO不均衡、单盘阻塞等问题时不时骚扰几个核心开发人员,在经历了无数次尝试后,开发小哥半夜突发奇招,调整硬件调度策略,配合相关调优措施,一举突破障碍,极大提升了关键目标核心性能,为自动驾驶开发低成本解决方案立了一大功!
通过调整星星海服务的IO调度模型和结合了Ozone的软件方案,最终将集群整体读写带宽提升了超过50%:
(图示为不同调度策略的IO对比,灰色图形为最终选择的IO模型)
腾讯自动驾驶专有云低成本解决方案提供自动驾驶数据存储、计算、标注、模拟仿真、镜像仓库、应用发布等一揽子服务。低成本、合规是核心;可靠、安全、稳定、合规是基础能力。在自动驾驶研发和量产的道路上,腾讯自动驾驶专有云方案,助力车企突破成本和效率的障碍,加速技术的研发进程。