特斯拉的人形机器人来了,售价不到 2 万美元(约合人民币 14 万元),最快可能在三年内上市。
就在今天,特斯拉再次举办了一场 AI DAY 活动,依旧在玩延迟启动的传统艺术。与马斯克平时讲课的模式不同,本次 AI DAY 上,马斯克身穿“撞衫”旧黄色皮夹克简单介绍了机器人擎天柱(与变形金刚中的擎天柱同名),此次重点突出。之后,各路商界负责人进行了解释。
过去一年,特斯拉机器人团队每周工作近 7 天,每天工作十几个小时,今年终于展示了原型。
活动开始时,一个没有任何伪装的机器人缓缓走上舞台,完成了行走、转身、挥手等动作。从特斯拉展示的视频来看,特斯拉擎天柱还可以运输物品和浇花。等行为。
在去年的 AI Day 上,擎天柱只是一张概念图。仅仅一年后,特斯拉就拿出了可以行走和执行各种行为的原型产品。不得不说,特斯拉的技术团队真的很强大。
马斯克对这款产品非常重视,认为它的价值会比汽车和自动驾驶更重要。他认为,特斯拉未来将生产数百万台机器人,成本低于 2 万美元(约合人民币 14 万元),未来 3 至 5 年即可购买。
在自动驾驶方面,特斯拉一直在改进技术和产品。目前FSD Beta版有16万用户在使用,到今年年底将有能力在全球推广。
此外,特斯拉还开发了自己的Dojo超级计算平台,目前正在帮助特斯拉在自动驾驶和机器人方面取得更多成就。
整个发布会结束后,多位特斯拉工程师详细介绍了特斯拉在擎天柱、FSD、Dojo等方面的软硬件,但几乎在每次产品介绍的同时,特斯拉都在谈论希望更多的AI、硬件等人才能够加入特斯拉,做更有意义的产品。
也就是说,特斯拉为了招到合适的人才,特意召开了一场发布会。
不过,从这次发布来看,特斯拉不再只是一家电动汽车公司。在人形机器人、自动驾驶、超级计算等领域进行了深度布局,正在成为一家非常硬核的全家科技公司。
01.
擎天柱原型揭幕成本不到 20,000 美元
发布会开始,马斯克展示了特斯拉制造的机器人擎天柱的原型。从直播来看,这款机器人的首次亮相确实非常原型,电线直接裸露在全身,没有任何装饰。
机器人可以独立行走,向用户挥手,甚至跳舞。
马斯克表示,擎天柱其实可以做更多的事情,只能在舞台上展示。从现场展示的视频来看,擎天柱不仅可以四处走动,还可以运输物品、水花等行为。
在工厂里,机器人可以从工作台上取下一个长长的物体,并将其整齐地放入一个装有相同物体的盒子中。在从机器人的角度进行的渲染中,它可以使用颜色来区分现实世界中的不同对象。比如它持有的细长物体是紫色的,工作台是黄色的,等等。
随后,特斯拉又推了一款更真实的擎天柱,外观和去年 AI DAY 展示的模型有点相似,外观类似人类,自由度更高。
在使用的过程中,还可以提供更多的服务,比如手指可以自由活动,可以操作很多工具,右手可以拿一些工具,甚至可以在工厂做一些重复性的工作。
不过,马斯克表示,在过去的一年里,机器人团队每周工作 7 天,每天工作十多个小时。尽管特斯拉做了大量工作,但这款机器人仍处于早期阶段,未来可以使用。做得更好。
据介绍,特斯拉全身人形机器人“擎天柱”重73kg,静坐时耗电100W,快走时耗电500W。全身有200多个自由度,手部有27个自由度。
马斯克对这款产品的成本和其他信息进行了剧透。他认为,目前市面上还可以看到一些其他的机器人,但成本非常高。特斯拉的擎天柱可以低成本生产,预计未来的产量可以达到几个数字。万台,成本可能不到2万美元(约合人民币14万元)。
马斯克显然对这款产品非常看好。他说,机器人可以降低劳动力成本,更好地发展经济。未来不会有贫穷。人类可以自由选择工作类型。体力劳动将不再是人类的必需品。可以更多地参与脑力工作。
虽然自动驾驶汽车非常重要,但它们可以使交通方式发生一个数量级的革命。但机器人可以降低经济成本,让社会发展更有活力。马斯克希望机器人能够以更安全的方式为人类带来更多帮助。
在现场,马斯克也不忘给自己打广告:“我们举办活动的目的是为了吸引更多的AI人才加入我们,做出更好的产品。”
在马斯克的简单介绍之后,特斯拉的设计团队对擎天柱的设计做了一点介绍。
一位特斯拉机器人负责人介绍了部分机器人的具体进展。在去年的 AI DAY 上,特斯拉简要介绍了特斯拉的机器人。到目前为止,它经历了三个演变,最终呈现了现在的结果。
擎天柱使用的核心传感器是一个摄像头,类似于特斯拉 FSD 系统中使用的摄像头。特斯拉目前收集了大量数据来训练机器人。
特斯拉擎天柱的动力系统集成在上部。之所以这样设计,是经过深思熟虑的设计方案,希望减少更多的线束,将配电和计算集中在躯干中央。它包含一个容量为 2.3kWh 的电池组,一次充电即可运行一整天。
特斯拉机器人使用单颗特斯拉自研SoC芯片,支持LTE 4G连接,但与汽车中使用的机器人不同,机器人需要处理视觉数据以快速响应,基于多种感官输入和通信,因此安装了它们。有无线电连接、音频支持和保护机器人身体和人类所需的安全功能。
动作方面,特斯拉的擎天柱依然借鉴了特斯拉电动车的动力总成。特斯拉在设计时首先分析了机器人需要执行哪些动作,包括走路、上下楼梯等。首先通过分析机器人行走的动态数据,可以得出这些动作所需的时间、能耗和轨迹。分析,并根据这些数据设计关节和执行器。
在安全方面,特斯拉也做了一些设计。为了保护机器人,研究人员对其结构基础进行了优化,这项技术可以应用在机器人身上,而不会在人形机器人跌落时破坏传动装置和手臂。毕竟,机器人的维护成本很高。
开发人员使用与汽车相同的底层技术,允许机器人在所有组件中产生压力,使其行走控制更容易且不那么僵硬。
以膝盖为例,人形机器人在设计时需要模仿人类真实的膝盖结构。
研究人员已经线性化了人类膝关节及其在运动过程中所受到的力,以学习如何以较小的力构建机器人膝关节,使其能够实现更好的力控制,并将相关结构紧紧包裹在膝关节周围。
执行器有 6 种类型,包括电机、类似于体重秤的牵引执行器等。特斯拉还在现场展示了一段视频,其中可以通过牵引执行器吊起钢琴。
人形机器人的另一个重点是手。特斯拉希望擎天柱的手像人类一样灵活,能够抓住物体,操纵它们,并有传感器来感知它们。
擎天柱的手也受到了生物系学生的启发。通过 6 个执行器,擎天柱的手可以实现 11 个自由度的运动,并且可以承载 20 磅的重量,并且可以操作一些仪器,或者抓取小物件。
特斯拉的技术专家在现场表示,这辆车是一个轮式机器人,而擎天柱只是在一定程度上架起了这辆车。
在机器人的动作方面,擎天柱使用特斯拉电动汽车中相同的神经网络“占用网络”来识别可驾驶区域。
在行走方面,软件在感知和分析外部环境后,会绘制一条行驶轨迹,然后根据轨迹规划出每只脚的落脚点,然后让执行器执行。
人形机器人的关键点之一是保持直立,不轻易倒地。怎么做?通过传感器和对外界的感知,可以调节控制器本身的扭矩,最终在受到外界影响时保持平衡。
在抓取方面,特斯拉首先采集人类抓取行为的轨迹数据,然后将其映射到机器人上,使其能够执行一些抓取动作。
未来,特斯拉希望让擎天柱更加灵活,也希望能在原型的基础上走得更远,让它在各方面都能得到提升,拥有更好的导航和机动性。
02.
法力自动驾驶年底将有能力在全球推出FSD
在自动驾驶方面,特斯拉首先介绍了FSD的情况。2021年,FSD测试有2000名客户参与。2022年扩展到16万客户。特斯拉目前已经积累了480万条数据,训练了7.5万个神经网络,并在此基础上推出了35个FSD版本更新。
在自动驾驶技术架构方面,特斯拉的做法是使用自动化数据标注系统,对采集到的数据进行自动标注,然后对数据进行处理训练神经网络,再将 AI 模型部署到 FSD 计算机上。计算计算外界环境的感知结果,计算车辆的行驶规律。
在科技展示方面,特斯拉首次展示了无保护左转能力。例如,当左转时有行人和其他车辆时,特斯拉会在考虑不同交通参与者的驾驶轨迹后,计算出最合适的驾驶轨迹。
具体来说,特斯拉使用了一种称为交互式搜索的技术。
从视觉感知开始,感知交通参与者,然后推断他们的驾驶轨迹,然后生成若干策略,最后选择最佳驾驶轨迹。
这里需要注意的是,如果外部目标越来越多,所需的计算量也会增加。
特斯拉使用环视摄像头感知外界,生成 3D 环境,并利用网络寻找可驾驶区域并知道哪些障碍物。
工作时,第一步是对相机的图像进行标定,将图像融合形成3D空间,提取数据,输入神经网络,通过相应的算法构建空间特征。
这里有一个问题。仅生成一个 3D 空间后,如果没有各种物体的精确位置,仍然无法进行路径规划。所以特斯拉的做法是通过分析关键特征来计算位置数据。
特斯拉的车队在日常驾驶中积累了大量的视频片段。每个视频有多少帧,训练一个神经网络需要14亿帧,需要10万个GPU工时(1个GPU工作1小时),训练量巨大。
这就是需要超级计算机和人工智能加速器的地方。这也是特斯拉开发Dojo超级计算的原因,它可以将网络训练的速度提高30%。
在预测其他交通参与者的行为方面,特斯拉也推出了自己的做法。
相机图像会首先进入RegNet网络,处理后的数据会进入Transformer模型。可能有 10 亿个参数,它们是联合优化的。我想要实现的是最大化计算能力和最小化延迟。
汽车在运行过程中会产生大量数据,这些数据也需要标注。
在贴标时,特斯拉首先尝试了人工贴标,但耗时耗力。后来考虑了供应商合作的方式,但从最终结果来看,时效性和质量都不是很好,特斯拉需要非常高效和可扩展的标注。
目前特斯拉采用的人机合作标准方法包括人工标注和机器标注,但总体而言,机器标注的效率更高。机器 30 分钟的工作量对人类来说可能需要更长的时间,所以特殊的 Sla 正在构建一个自动贴标系统。
通过高效标注,将现实世界中的时空碎片转化为可用数据,从而使FSD更加智能高效。
及时的自动标注也需要整理。特斯拉之前在这方面投入的精力并不多,但现在有很多工程师在做这方面的工作。
此外,在自动驾驶中,一个非常重要的部分就是仿真系统,它可以提高车辆应对长尾场景的能力。
特斯拉打造了一个场景生成器,可以在短短五分钟内生成一个场景,速度提高 1000 倍,并且可以扫描真实物体并将其投影到屏幕上,模拟信号灯、停车标志等,与现实世界一样接近可能的 。
这对于训练非常重要。
通过数据引擎,可以让神经网络更加真实,可以带来更多的确定性,解决现实世界的不确定性。例如,在路口转弯时,需要判断停在地面上的车辆是处于停放状态还是慢速行驶。只有建立更多的评估网络,这样的场景才能得到解决。
目前,特斯拉的数据集,部分来自车队返回的信息,部分来自模拟数据,可以让现场的判断更加方便。
至于特斯拉FSD Beat的推广,今年年底特斯拉将有能力在全球推出FSD。但在北美以外,需要与监管机构沟通,在一些国家和地区,监管仍然滞后。
03.
Dojo的不断迭代正在推动特斯拉的发展
在之前关于机器人和自动驾驶的介绍中,特斯拉的工程师们已经多次提到 Dojo 超算平台。
在去年的首届特斯拉 AI Day 上,特斯拉展示了其首款 AI 训练芯片 Dojo D1,以及在该芯片上构建的完整 Dojo 集群 ExaPOD,为其在路上行驶的大量车辆视频执行 AI 训练任务提供支持加工需求。
特斯拉已经拥有一台基于 GPU 的大型超级计算机和一个存储 30PB 视频片段的数据中心。
特斯拉还展示了过去两年的一组照片,从交付定制的冷配电单元 (CDU) 到安装第一个集成 Dojo 机柜,再到 2.2MW 单元的负载测试。
特斯拉一直在尝试优化 Dojo 设计的可扩展性,并以“试错”的心态克服挑战。Dojo 加速器具有单一的可扩展计算平面、可全局寻址的快速内存和统一的高带宽 + 低延迟。
特斯拉技术工程师专门谈到了调压模块,它具有高性能、高密度(0.86A/mm²)、复杂集成的特点。
其稳压模块在 24 个月内更新了 14 个版本。
热膨胀系数 (CTE) 很重要,因此特斯拉与供应商合作提供电源解决方案。它的 CTE 降低了 50% 以上,Dojo 的执行速度是初始缩放的 3 倍。
会上,Dojo 团队通过 Dojo 对 Stable Diffusion 的实现展示了 Cybertruck 在火星上运行的图像。
据介绍,仅 4 个 Dojo 机柜就可以替代由 4000 个 GPU 组成的 72 个 GPU 机架。Dojo 将通常需要数月至一周的工作减少了。
此外,特斯拉自研的D1芯片也发挥了作用。D1采用7nm制程工艺,500亿个晶体管塞入645mm²的面积。BF16、CFP8的算力可以达到362TFLOPS,FP32的算力可以达到22.6TFLOPS。TDP(热设计功耗)为400W。
基于D1芯片,特斯拉推出了系统级晶圆解决方案。采用台积电的InFO_SoW封装技术,将25颗D1芯片全部集成到一块训练板上,每块Dojo训练板耗电15kW。Tesla Dojo 培训板块中有计算、I/O、电源和液体冷却模块。
Dojo System Tray具有高速连接和密集集成的特点,75mm的高度可支撑135kg。其BF16/CFP8峰值算力可达54TFLOPS,功耗100+kW。
Dojo 接口处理器是具有高带宽内存的 PCIe 卡,它利用 Tesla 自己的 TTP 接口。
Tesla 传输协议 TTP 还可以桥接标准以太网,TTPOE 可以将标准以太网转换为具有高 Z 平面拓扑连接性的 Z 平面拓扑。
自去年 Tesla AI Day 以来,Dojo 开发迎来了一系列里程碑,包括第一个 Dojo 机柜的安装、2.2mW 负载测试等。现在特斯拉正以每造一个 Tile 的速度前进日工。
特斯拉还宣布,其首个 ExaPOD 预计将于 2023 年第一季度完工,计划在帕洛阿尔托共建造七台 ExaPOD。
据介绍,在10机柜系统中,Dojo ExaPOD集群将突破E级算力。
其BF16/CFP8峰值算力达到1.1EFLOPS(100亿兆次浮点运算),拥有1.3TB高速SRAM和13TB高带宽DRAM。
04.
结论:特斯拉不仅仅是一家汽车公司
在很多大众的印象中,特斯拉是全球电动汽车的领头羊,是全球第一家大规模推广电动汽车的公司,也是一家伟大的汽车公司。
但在特斯拉自己看来,这家车企并不是它对自己的最终定位。特斯拉可以将自己定位为一家非常硬核的科技公司。因此,特斯拉在自动驾驶、人工智能、机器人,甚至超级计算方面都做出了努力,也取得了一定的成绩。
为了取得这些成绩,特斯拉在内部也做出了很多努力,充分尊重有才华的员工,共同创造有价值的产品。