Thor还添加了一些座舱领域的需求,特别是显示输出方面,显然,Thor是考虑舱驾一体的。

英伟达的GPU-CPU Superchip可以看做是Thor的放大版。

图片来源:英伟达

先来看CPU,CPU采用了ARM的服务器系列Neoverse的V2架构,同样采用此架构的还有英伟达的Grace,不过Grace是高达144核心,存储带宽高达1TB/s,远在Thor之上。

图片来源 :ARM

Neoverse专为AI数据中心设计,特别支持BF16这种比较新的数据格式,有些不适合GPU的AI运算则由CPU负责,不依赖外接GPU,单单Grace 也能达到57TOPS@FP8的算力。GH200中的CPU减少一半,即72核心,其余性能也都减半。V2的L1缓存是128KB,L2缓存每个核心是2MB,不过英伟达的Grace考虑成本,降低到了1MB。高通新一代的Oryon CPU 的L1缓存是192KB,L2缓存则是3MB,远比英伟达要高。

图片来源:ARM

V2的解码位宽是6位,A78是4位,提升约50%,而高通新一代Oryon是8位。对于CPU,关键的参数主要有两个,一个是IPC解码宽度,另一个就是缓存,ARM是挤牙膏式的,每年做一次小升级,让利润最大化。苹果则一步到位,性能最大化,以至于苹果连续数年都无法升级性能,安卓手机受困于ARM的挤牙膏,性能始终无法和苹果看齐,这也是高通抛弃ARM的主要原因。即便是AI数据中心领域,ARM也是挤牙膏,V1的解码位宽是5位,V2是6位,V3估计是8位。

ARM架构的性能对比表

整理:佐思汽研

GPU采用了最新的Blackwell架构,不过Blackwell主要优化有两点,一是支持更低精度即FP4或INT4,另一个就是更好地支持MoE即混合专家模式。

作为一种基于 Transformer 架构的模型,混合专家模型主要由两个关键部分组成:

稀疏 MoE 层:这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个),每个专家本身是一个独立的神经网络。在实际应用中,这些专家通常是前馈网络 (FFN),但它们也可以是更复杂的网络结构,甚至可以是 MoE 层本身,从而形成层级式的 MoE 结构。

门控网络或路由: 这个部分用于决定哪些token 被发送到哪个专家。例如,在下图中,“More”这个令牌可能被发送到第二个专家,而“Parameters”这个token被发送到第一个专家。有时,一个token甚至可以被发送到多个专家。token的路由方式是 MoE 使用中的一个关键点,因为路由器由学习的参数组成,并且与网络的其他部分一同进行预训练。

图片来源:网络

总结来说,在混合专家模型 (MoE) 中,将传统 Transformer 模型中的每个前馈网络 (FFN) 层替换为 MoE 层,其中 MoE 层由两个核心部分组成: 一个门控网络和若干数量的专家。MoE的出现主要是为了应对超大规模LLM训练,例如万亿级参数规模的训练,能够大大提高LLM大模型训练效率,减小计算时间,但对存储要求更高。这与车载领域没有任何关系,车载领域连单独的显存都没有,需要和CPU共用显存,且规模非常有限,一般不超过32GB,且大多是带宽很低的LPDDR5,最高支持模型参数不超过100亿,万亿级参数的大模型训练至少需要数万美元的HBM显存支持,推理也需要近万美元的HBM显存支持,这在车载领域完全无法想象。

存储带宽决定了推理计算速度的上限,假设一个大模型参数为70亿,按照车载的INT8精度,它所占的存储是7GB,如果是英伟达的RTX4090,它的显存带宽是1008GB/s,也就是每7毫秒生成一个token,这个就是RTX4090的理论速度上限。如果是特斯拉第一代FSD芯片的存储带宽是63.5GB/s,也就是每110毫秒生成一个token,帧率不到10Hz,自动驾驶领域一般图像帧率是30Hz,英伟达的Orin存储带宽是204.5GB/s,也就是每34毫秒生成一个token,勉强可以达到30Hz,注意这只是计算的数据搬运所需要的时间,数据计算的时间都完全忽略了,实际速度要低于这个数据。

再有就是英伟达Orin的GPU运算部分和CPU是共享LPDDR5存储带宽的,而AI数据中心或显卡领域,GPU是独享显存的,CPU则是使用另外的DDR存储。Orin的存储带宽还要分一部分给CPU部分,因为CPU任何时候都需要数据载入和写入,这方面从未有人做过深入研究,很难估计Orin给GPU的带宽是多少,大概有50-70%。按70%计算的话,那么英伟达Orin最高支持大模型规模是50亿参数,考虑到计算时间和CPU的任务安排推送,50亿参数还要打折扣,估计是40亿参数,当然如果降低帧率,只应对低速场合,最高可支持到100亿参数左右。而特斯拉第一代FSD最高支持大模型规模大约15亿参数。

如果限定帧率30Hz,那么Thor-X支持大模型参数上限大约为70亿,这也是入门级端到端模型的整体参数规模,性能恰好够,不多不少。特斯拉二代FSD即HW4.0芯片支持GDDR6存储,带宽可轻松超过Thor-X-Super,下一代AI5即HW5.0估计支持GDDR7,带宽估计超过1TB/s,是Thor-X的5倍,最高支持350亿参数大模型没有问题。对英伟达来说,GDDR6/7驾轻就熟,早就用在其显卡芯片上了,然而车载领域芯片还是得考虑成本,最终还是妥协,只用了LPDDR5X。

自动驾驶芯片厂家都有自己的市场定位,实际各厂家之间技术能力差距可以忽略,关键是市场定位,英伟达主要就是中国的新兴造车和奔驰,定位最高端市场,主打高性能高价。高通就是定位全球范围内的传统车厂,主打中高端市场,主打高性价比,高通大概率不会推出对标Thor的产品。Mobileye则定位中低端市场,主打就是低价。

对英伟达而言,最大的威胁不是国内芯片企业,而是美国商务部,按照美国商务部之前的标准总处理性能TPP不超过4800的规定,Thor-X是1000*8*2=16000,远超4800,只要美国商务部高兴,它随时可以禁止英伟达销售Thor,对英伟达来说车载业务占其总收入不到2%,英伟达也不会费尽心思再出一个阉割版的Thor。

免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。

更多佐思报告

佐思2024年研究报告撰写计划

智能网联汽车产业链全景图(2024年6月版)

云端和AI

车云

OTA研究

自动驾驶仿真

汽车云服务研究

自动驾驶地图

TSP与应用服务

V2X和车路协同

数据闭环研究

路侧智能感知

AI大模型

汽车AI大模型研究

AI大模型对整车智能化影响

座舱AI Agent

AI大模型在座舱领域应用

智驾系统集成和应用层

自动驾驶应用框架

ADAS与自动驾驶Tier1-国内

本土车企ADAS

ADAS与自动驾驶Tier1-国外

国外OEM ADAS研究

L3/L4级自动驾驶和初创企业

理想L8/L9功能拆解

智能驾驶Tier1前10强对比

自动驾驶算法和系统

端到端智驾研究

行泊一体研究

冗余系统

舱泊一体

智驾融合算法

舱行泊融合

汽车视觉算法

无人配送车

领航辅助驾驶(NOA)

感知

毫米波雷达

汽车视觉

激光雷达研究

红外夜视

激光雷达核心部件

车用超声波雷达

软件定义雷达

车载摄像头Tier2

智舱系统集成和应用层

智能座舱应用框架

智能座舱Tier1

座舱设计趋势

智能座舱平台

座舱显示

车载VR/AR/MR研究

HUD产业链

仪表和中控显示

电子后视镜

座舱多屏与联屏

行车记录仪

HUD产业研究

智能玻璃

座舱交互

车载语音

车载香氛与空气净化

舱内监控研究

汽车音响

汽车多模态交互

智能表面

手势交互发展

座舱互联娱乐与生态

汽车生态域

自主品牌车联网

汽车数字钥匙

合资品牌车联网

车载支付

新势力品牌车联网

车载信息娱乐

商用车车联网

汽车eCall系统

商用车智能座舱

座舱其他

汽车舒适系统

智能车门

汽车照明

上海车展75项趋势

车载无线充电

两轮车智能化

OS和支撑层

SDV框架

软件定义汽车

汽车软件业务模式

基础软件/系统平台

AUTOSAR研究

汽车操作系统

数字仪表OS

信息安全/功能安全

汽车信息安全

汽车功能安全

电子电气架构层

E/E架构框架

E/E架构

汽车电子代工

48V低压供电网络

智驾域

自动驾驶SoC

ADAS域控组件

自动驾驶域控

座舱域

智能座舱平台

座舱域控

座舱SoC

8295座舱域控制器拆解

车控域

车身(区)域控研究

汽车VCU研究

电驱动和动力域控制器

通信/网络域

车内通信芯片

商用车T-Box

无线通讯模组

高精度定位

汽车网关

车载天线

乘用车T-Box

汽车UWB研究

跨域融合

多域计算和区域控制器

区域和中央计算

车身(区)域控研究

其他芯片

汽车MCU研究

车用RISC-V研究

车载存储芯片

传感器芯片

电源管理芯片

汽车CIS研究

动力层

动力

混合动力报告

电源管理芯片

800V高压平台

电驱动与动力域研究

IGBT及SiC研究

能源

一体化电池

充换电基础设施

燃料电池

移动充电机器人

固态电池

其他

热管理系统

一体化压铸

机械层

底盘/执行

乘用车底盘域控

电控悬架

线控制动研究

智能转向关键组件

转向系统

商用车智能底盘

其他宏观

车型平台

车企模块化平台

主机厂车型规划研究

出海

主机厂海外布局

政策、标准、准入

智驾法规和汽车出海

自动驾驶标准与认证

AI机器人

PBV及汽车机器人

无人配送车

移动充电机器人

飞行汽车

「佐思研究月报」

ADAS/智能汽车月报|汽车座舱电子月报|传感器月报| 电池、电机、电控月报 |车载信息系统月报|黑科技月报返回搜狐,查看更多