聊聊自动驾驶芯片发展趋势-芯泽芯

聊聊自动驾驶芯片发展趋势

2023-04-15

芯片按应用场景可分为消费芯片、工业芯片、汽车芯片和军工芯片等。汽车是芯片应用场景之一，汽车芯片需要具备车规级。车规级芯片对加工工艺要求不高，但对质量要求高。需要经过的认证过程，包括质量管理标准ISO/TS 16949、可靠性标准 AEC-Q100、功能安全标准ISO26262等。汽车内不同用途的芯片要求也不同，美国制定的汽车电子标准把其分为5级。汽车各系统对芯片要求由高到低依次是：动力安全系统 > 车身控制系统 > 行驶控制系统 > 通信系统 > 娱乐系统。

车规级芯片特殊的技术和工艺要求挡住了企业进入的脚步。车规级芯片有着比消费级芯片更高的技术门槛，需满足温度、振动、电磁干扰、长使用寿命等高要求，还要通过可靠性标准AEC-Q100、质量管理标准ISO/TS16949、功能安全标准ISO26262 等严苛的认证流程，大部分芯片企业尚不具备转型进入能力。目前，车规级芯片在传统汽车中的成本约为 2270 元 / 车，在新能源汽车中的成本约为 4540 元 / 车。随着汽车向电动化和智能化发展，芯片的种类、数量和价格占比将进一步提高。

1.2、自动驾驶芯片产品趋势：一体化云和边缘计算的数据中心，以及自动驾驶等超级终端领域，都是典型的复杂计算场景，这类场景的计算平台都是典型的大算力芯片。大芯片的发展趋势已经越来越明显的从GPU、DSA的分离趋势走向DPU、超级终端的再融合，未来会进一步融合成超异构计算宏系统芯片。BOSCH给出了汽车电气架构演进示意图。从模块级的ECU到集中相关功能的域控制器，再到完全集中的车载计算机。每个阶段还分了两个子阶段，例如完全集中的车载计算机还包括了本地计算和云端协同两种方式。

英伟达创始人黄仁勋在2022秋季GTC大会上发布了新自动驾驶芯片——Thor.Thor的特点：一是超高AI性能，拥有770亿晶体管，而上一代的Orin是170亿晶体管。AI性能为2000 TFLOPS@FP8.如果是INT8格式，估计可以达到4000TOPS.二是支持FP8格式，英伟达、英特尔和ARM三家联合力推FP8格式标准，力图打通训练与推理之间的鸿沟。三是超高CPU性能，Thor的CPU可能是ARM的服务器CPU架构V2或更先进的波塞冬平台。四是统一座舱、自动驾驶和自动泊车，一颗芯片包打天下。

英伟达发布的一体化自动驾驶芯片Altan&Thor的设计思路是完全的“终局思维”，相比BOSCH给出的一步步的演进还要更近一层，跨越集中式的车载计算机和云端协同的车载计算机，直接到云端融合的车载计算机。云端融合的意思是服务可以动态的、自适应的运行在云或端，方便云端的资源动态调节。Altan&Thor采用的是跟云端完全一致的计算架构：Grace-next CPU、 Ampere-next GPU以及Bluefield DPU,硬件上可以做到云端融合。

自动驾驶芯片架构分析2.1、主流架构方案对比：三种主流架构当前主流的AI芯片主要分为三类，GPU、FPGA、ASIC.GPU、FPGA均是前期较为成熟的芯片架构，属于通用型芯片。ASIC 属于为AI特定场景定制的芯片。行业内已经确认CPU不适用于AI计算，但是在AI应用领域也是必不可少。CPU遵循的是冯·诺依曼架构，其核心是存储程序/数据、串行顺序执行。因此CPU的架构中需要大量的空间去放置存储单元（Cache）和控制单元（Control），相比之下计算单元（ALU）只占据了很小的一部分，所以CPU在进行大规模并行计算方面受到限制，相对而言更擅长于处理逻辑控制。

GPU（GraphicsProcessing Unit），即图形处理器，是一种由大量运算单元组成的大规模并行计算架构，早先由CPU中分出来专门用于处理图像并行计算数据，专为同时处理多重并行计算任务而设计。GPU中也包含基本的计算单元、控制单元和存储单元，但GPU的架构与CPU有很大不同，其架构图如下所示。与CPU相比，CPU芯片空间的不到20%是ALU,而GPU芯片空间的80%以上是ALU.即GPU拥有更多的ALU用于数据并行处理。

CPU 由专为顺序串行处理而优化的几个核心组成，而 GPU 则拥有一个由数以千计的更小、更高效的核心组成的大规模并行计算架构，这些更小的核心专为同时处理多重任务而设计。CPU和GPU之所以大不相同，是由于其设计目标的不同，它们分别针对了两种不同的应用场景。CPU需要很强的通用性来处理各种不同的数据类型，同时又要逻辑判断又会引入大量的分支跳转和中断的处理。这些都使得CPU的内部结构异常复杂。而GPU面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境。

对于深度学习来说，目前硬件加速主要靠使用图形处理单元。相比传统的 CPU,GPU 的核心计算能力要多出几个数量级，也更容易进行并行计算。GPU 的众核体系结构包含几千个流处理器，可将运算并行化执行，大幅缩短模型的运算时间。随着 NVIDIA、AMD 等公司不断推进其 GPU 的大规模并行架构支持，面向通用计算的 GPU已成为加速并行应用程序的重要手段。目前 GPU 已经发展到了较为成熟的阶段。利用 GPU 来训练深度神经网络，可以充分发挥其数以千计计算核心的高效并行计算能力，在使用海量训练数据的场景下，所耗费的时间大幅缩短，占用的服务器也更少。如果针对适当的深度神经网络进行合理优化，一块 GPU 卡可相当于数十甚至上百台 CPU服务器的计算能力，因此 GPU 已经成为业界在深度学习模型训练方面的首选解决方案。

2.2、FPGA方案：FPGA芯片定义及结构FPGA（Field-Programmable Gate Array），即现场可编程门阵列，它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路领域中的一种半定制电路而出现的，既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。FPGA芯片主要由6部分完成，分别为：可编程输入输出单元、基本可编程逻辑单元、完整的时钟管理、嵌入块式RAM、丰富的布线资源、内嵌的底层功能单元和内嵌专用硬件模块。目前主流的FPGA仍是基于查找表技术的，已经远远超出了先前版本的基本性能，并且整合了常用功能（如RAM、时钟管理和DSP）的硬核（ASIC型）模块。

由于FPGA需要被反复烧写，它实现组合逻辑的基本结构不可能像ASIC那样通过固定的与非门来完成，而只能采用一种易于反复配置的结构。查找表可以很好地满足这一要求，目前主流FPGA都采用了基于SRAM工艺的查找表结构，也有一些军品和宇航级FPGA采用Flash或者熔丝与反熔丝工艺的查找表结构。通过烧写文件改变查找表内容的方法来实现对FPGA的重复配置。查找表（Look-Up-Table）简称为LUT,LUT本质上就是一个RAM.目前FPGA中多使用4输入的LUT,所以每一个LUT可以看成一个有4位地址线的的RAM.当用户通过原理图或HDL语言描述了一个逻辑电路以后，PLD/FPGA开发软件会自动计算逻辑电路的所有可能结果，并把真值表（即结果）事先写入RAM,这样，每输入一个信号进行逻辑运算就等于输入一个地址进行查表，找出地址对应的内容，然后输出即可。

2.3、ASIC方案：ASIC定义及特点ASIC 芯片可根据终端功能不同分为 TPU 芯片、DPU 芯片和 NPU 芯片等。其中，TPU 为张量处理器，专用于机器学习。如 Google 于 2016 年 5 月研发针对 Tensorflow 平台的可编程 AI 加速器，其内部指令集在 Tensorflow 程序变化或更新算法时可运行。DPU 即 Data Processing Unit,可为数据中心等计算场景提供引擎。NPU 是神经网络处理器，在电路层模拟人类神经元和突触，并用深度学习指令集直接处理大规模电子神经元和突触数据。ASIC 有全定制和半定制两种设计方式。全定制依靠巨大的人力时间成本投入以完全自主的方式完成整个集成电路的设计流程，虽然比半定制的 ASIC 更为灵活性能更好，但它的开发效率与半定制相比甚为低下。

ASIC 芯片非常适合人工智能的应用场景。例如英伟达首款专门为深度学习从零开始设计的芯片 Tesla P100 数据处理速度是其 2014 年推出GPU 系列的 12 倍。谷歌为机器学习定制的芯片 TPU 将硬件性能提升至相当于当前芯片按摩尔定律发展 7 年后的水平。正如 CPU 改变了当年庞大的计算机一样，人工智能 ASIC 芯片也将大幅改变如今 AI 硬件设备的面貌。如大名鼎鼎的 AlphaGo 使用了约 170 个图形处理器（GPU）和 1200 个中央处理器（CPU），这些设备需要占用一个机房，还要配备大功率的空调，以及多名专家进行系统维护。而如果全部使用专用芯片，极大可能只需要一个普通收纳盒大小的空间，且功耗也会大幅降低。

ASIC技术路线是有限开放，芯片公司需要面向与驾驶相关的主流网络、模型、算子进行开发。在相同性能下，芯片的面积更小、成本更低、功耗更低。ASIC技术路线未来的潜力会很大，选择ASIC路线并不意味着要对不同车型开发不同的 ASIC,或进行不同的验证。因为不同车型需要实现的功能大致相同，而且芯片面对模型和算子进行有限开放，算法快速迭代不会影响到芯片对上层功能的支持。车厂与芯片设计公司合作，进行差异化定制，或是更好的选择。因为即使是进行差异化的定制，芯片内部50%的部分也是通用的。芯片设计公司可以在原有版本的基础上进行差异化设计，实现部分差异功能。

2.4、主流架构方案对比：三种主流架构FPGA是在PAL、GAL等可编程器件的基础上进一步发展的产物。它是作为专用集成电路领域中的一种半定制电路而出现的，既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。优点：可以无限次编程，延时性比较低，同时拥有流水线并行和数据并行、实时性最强、灵活性最高。缺点：开发难度大、只适合定点运算、价格比较昂贵。图形处理器（GPU），又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板、手机等）上做图像和图形相关运算工作的微处理器。优点：提供了多核并行计算的基础结构，且核心数非常多，可以支撑大量数据的并行计算，拥有更高的浮点运算能力。缺点：管理控制能力（最弱），功耗（最高）。

ASIC,即专用集成电路，指应特定用户要求和特定电子系统的需要而设计、制造的集成电路。目前用CPLD（复杂可编程逻辑器件）和FPGA（现场可编程逻辑阵列）来进行ASIC设计是最为流行的方式之一。优点：它作为集成电路技术与特定用户的整机或系统技术紧密结合的产物，与通用集成电路相比具有体积更小、重量更轻、功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点。缺点：灵活性不够，成本比FPGA贵。

2.5、唯算力论的局限：TOPS算力不完全等于实际性能随着ADAS、自动驾驶技术的兴起，以及软件定义汽车的逐步深入，智能汽车对于计算能力和海量数据处理能力等的需求暴增，传统汽车的芯片“堆叠”方案已经无法满足自动驾驶的算力需求。芯片最终是为车企的车载计算平台服务的，在 “软件定义汽车”的情况下，解决智能驾驶系统计算平台的支撑问题，无法只通过芯片算力堆叠来实现。

芯片是软件的舞台，衡量芯片优劣的标准，要看芯片之上的软件能否最大化地发挥作用，算力和软件之间需要有效匹配。两款相同算力的芯片比较，能让软件运行得更高效的芯片才是“好芯片”。决定算力真实值最主要因素是内存（ SRAM和 DRAM)带宽，还有实际运行频率（即供电电压或温度），以及算法的batch尺寸。单颗芯片算力TOPS是关键指标，但并非唯一，自动驾驶是一个复杂系统，需要车路云边协同。所以它的较量除了芯还有软硬协同还有平台以及工具链等等。芯片算力的无限膨胀和硬件预埋不会是未来的趋势，硬件也需要匹配实际。高算力背后是高功耗和低利用率的问题。

自动驾驶领域99%的视觉数据在AI处理中是无用的背景。例如检测鬼探头，变化的区域是很小一部分，但传统的视觉处理仍然要处理99%的没有出现变化的背景区域，这不仅浪费了大量的算力，也浪费了时间。亦或者像在沙砾里有颗钻石，AI 芯片和传统相机需要识别每一颗沙粒，筛选出钻石，但人类只需要看一眼就能检测到钻石，AI芯片和传统相机耗费的时间是人类的100倍或1000倍。除了冗余信息减少和几乎没有延迟的优点外，事件相机的优点还有由于低时延，在拍摄高速物体时，传统相机由于会有一段曝光时间会发生模糊，而事件相机则几乎不会。此外事件相机拥有真正的高动态范围，由于事件相机的特质，在光强较强或较弱的环境下，传统相机均会“失明”，但像素变化仍然存在，所以事件相机仍能看清眼前的东西。

自动驾驶芯片部分重点企业分析3.1、英伟达：从游戏显卡到自动驾驶芯片英伟达拥有极具前瞻性且清晰的战略能力。英伟达是全球最大的智能计算平台型公司，公司从早期专注PC图形计算，后来逐步将重点扩展到AI领域，并在3D图形的持续需求与游戏市场规模扩张推动下，利用GPU架构，创建VR、HPC（高性能计算）、 AI平台。英伟达在独立显卡、GPU领域有超过70%的市场份额。除了优秀的硬件性能外，2006年英伟达开发了基于GPU的 "CUDA"开发平台，让只做3D渲染的GPU实现通用计算功能，GPU 的应用领域从游戏扩展至高性能计算、自动驾驶等多个领域。2021年英伟达实现总收入269.1亿美元，游戏业务仍是支柱业务，占比近半，汽车部门收入5.6亿美金，占总收入比例2.08%。

3.2、英特尔Mobileye:EyeQ系列发展历程2004年4月，EyeQ1开始生产，随后公司收获多轮融资，将商业模式转向汽车安全，陆续与大陆、意法半导体、麦格纳、电装、德尔福等全球顶级零部件供应商签署合作协议。2007年，宝马、通用和沃尔沃成为首批配装Mobileye芯片的车企，Mobileye 产品正式商用。2008年，Mobileye对外发布EyeQ2，公司进入稳定发展期。2013年，Mobileye累计卖出产品突破100万台，随后出货量呈现爆发式增长。2017年3月，Mobileye被芯片巨头英特尔以 153 亿美元的价格收购。

Mobileye在2022年推出了新型EyeQ Ultra,它专为自动驾驶而生。据 Mobileye称，EyeQ Ultra采用5nm工艺，将10个EyeQ5的处理能力集成在一个封装中。但是其芯片的计算能力似乎略逊色于英伟达，EyeQ Ultra芯片具有170 TOPS,包括12个RISC内核、256 gigaflops、许多GPU和加速器内核等等，功耗不到100W,可以“处理 4 级（L4）自动驾驶的所有需求和应用”，而无需将多个系统集成在一起的计算能力和成本，解决两个行业面临的重大挑战。EyeQ Ultra预计将在 2025 年全面投产。

3.3、特斯拉：自动驾驶芯片发展之路Tesla经历了外购主控芯片到自研的道路。2014年-2016年， Tesla配备的是基于Mobileye EyeQ3芯片的AutoPilot HW1.0计算平台，车上包含1个前摄像头+1个毫米波雷达+12个超声波雷达。2016年-2019年， Tesla采用基于英伟达的DRIVE PX 2 AI计算平台的AutoPilot HW2.0和后续的AutoPilot HW2.5，包含8个摄像头+1个毫米波雷达+12超声波雷达。2017年开始Tesla开始启动自研主控芯片，尤其是主控芯片中的神经网络算法和AI处理单元全部自己完成。2019年4月， AutoPilot HW3.0平台搭载了Tesla FSD自研版本的主控芯片，这款自动驾驶主控芯片拥有高达60亿的晶体管，每秒可完成144万亿次的计算，能同时处理每秒2300帧的图像。

3.4、地平线：车规级芯片发展历程自2015年创立以来，地平线仅用了5年的时间即实现了车规AI芯片的量产落地，开启国产车规级AI芯片的前装量产元年。与此相比，Mobileye的车规芯片从研发到正式商用历时8年；作为全球通用AI芯片龙头的英伟达，在CUDA发布后9年才将K1芯片应用于奥迪A8的车用系统。地平线首款芯片征程1发布于2017年12月；征程2发布于2019年8月，可提供超过4TOPS的等效算力；征程3算力为5TOPS,发布于2020年9月；征程5发布于2021年7月，算力128TOPS.地平线的第三代车规级产品征程5兼具大算力和高性能，支持16路摄像头感知计算，能够支持自动驾驶所需要的多传感器融合、预测和规划控制等需求。

征程5是地平线第三代车规级产品，也是国内首颗遵循 ISO 26262功能安全认证流程开发，并通过ASIL-B认证的车载智能芯片；基于最新的地平线BPU®贝叶斯架构设计，可提供高达128TOPS算力。2022年4月21日，比亚迪与地平线正式宣布达成定点合作，比亚迪将在其部分车型上搭载地平线高性能、大算力自动驾驶芯片征程5，打造更具竞争力的行泊一体方案，实现高等级自动驾驶功能。按照计划，搭载地平线征程5的比亚迪车型最早将于 2023年中上市。2022年9月30日，理想L8搭载征程5全球首发上市。从研发到正式量产上车，征程5芯片仅用了近三年的时间，同样刷新了高性能智能驾驶芯片的应用效率。除了比亚迪、理想L8之外，征程5也已获得上汽集团、一汽红旗、自游家汽车等多家车企的量产定点合作，更多合作车型将陆续量产发布。

3.5、华为：MDC智能驾驶计算平台华为于2018年10月首次发布智能驾驶计算平台，支持L3的MDC600、支持L4的MDC300；2020年9月发布支持L2+的MDC210、支持L3-L4的MDC610.MDC610正在洽谈搭载的车型有广汽埃安AION LX、长城沙龙机甲龙、广汽传祺。2021年4月发布支持L4-L5 的MDC810，首搭于北汽极狐阿尔法S华为HI版，正在洽谈搭载于2022年哪吒TA、广汽埃安；并计划2022年推出MDC100.

华为 MDC 所采用的Ascend系列芯片，主要有Ascend310和升级版Ascend910两款芯片。Ascend包括训练和推理芯片，用于训练的Ascend910，半精度（FP16）算力达256TFLOPS,是业界的2倍。用于推理的 Ascend310，整型（INT8）算力16TOPS,功耗仅8W.作为一款 AI 芯片，Ascend310的一大亮点就是采用了达芬奇架构（Da Vinci）。达芬奇架构采用 3D Cube ，针对矩阵运算做加速，大幅提升单位功耗下的 AI 算力，每个 AI Core 可以在一个时钟周期内实现 4096 个 MAC 操作，相比传统的 CPU 和 GPU 可实现数量级的提升。

3.6、黑芝麻智能黑芝麻系列芯片产品包括华山一号A500、华山二号A1000、A1000L、A1000Pro、A2000.2019年8月，黑芝麻智能发布了华山一号自动驾驶芯片A500，算力5-10TOPS；2020年6月，黑芝麻智能发布华山二号A1000，算力在40-70TOPS,低配版A1000L在 16TOPS,高配版A1000Pro则在2021年4月发布，算力达到196TOPS.华山二号A2000是国内首个250T大算力芯片：顶尖7纳米工艺、国产自主知识产权核心IP、满足ASIL B级别的安全认证标准。黑芝麻华山二号 A1000 系列芯片已完成所有车规级认证，已经与上汽通用五菱、江淮等内的多家车企达成量产合作。在黑芝麻最强芯片华山二号 A1000 Pro 中，搭载了黑芝麻自研的图像处理器和神经网络加速器。其中，神经网络加速器能够让 A1000 Pro 芯片的 INT8 算力达到 106TOPS,INT4 算力达到 196TOPS.

3.7、芯驰科技从2019年到2020年，芯驰科技先后发布了V9L/F和V9T自动驾驶芯片，分别可支持ADAS（高级驾驶辅助系统）以及域控制器。面向集成度更高的汽车电子电气架构，未来两年芯驰科技还将陆续推出能够满足更高级别自动驾驶的高算力芯片。2022年，芯驰科技计划发布算力在10-200T之间的自动驾驶芯片——V9P/U,该产品拥有更高算力集成，可支持L3级别的自动驾驶。到 2023年，芯驰科技将推出具有更高算力的V9S自动驾驶芯片，该芯片面向中央计算平台架构研发，算力高达500-1000T,可支持L4/L5级别的自动驾驶的Robotaxi.芯驰科技在2021世界人工智能大会上发布了基于V9系列芯片开发的全开放自动驾驶平台——UniDrive.UniDrive的可扩展性非常强，从L1/L2级别 ADAS到L4/L5级别的Robotaxi的开发都能支持。

3.8、芯擎科技芯擎科技研发的首款7nm智能座舱芯片“龍鷹一号”，已于2021年6月流片成功，对标高通8155芯片。并且“龍鷹一号”即将于2022年底前实现量产上车，目前针对量产车型的各项测试和验证工作已陆续完成。芯擎科技计划2022流片的自动驾驶芯片AD1000，将满足L2+至L5级自动驾驶需求。未来芯擎科技会在自动驾驶领域不断深耕和探索，并且对标最先进的产品。具体来说，仍会采用7nm制程，将具备更高的算力和安全性。

上一篇:全球首创C语言的专用处理器生成工具FARMStudio正式发布下一篇:专用芯片是多媒体计算机硬件体系结构的关键