米乐m6官网登录·马斯克直播试驾特斯拉FSD V12！世界首个端到端AI自动驾驶1万块H100训练

　　特斯拉FSD将迎来重磅级更新！马斯克现场直播演示第一个端到端AI自动驾驶系统FSD V12测试版，引百万网友围观。

　　当地时间8月26日，马斯克亲自上线开启了一场FSD Beta V12试驾直播，引百万人现场围观。

　　据称，FSD Beta V12是有史以来第一个端到端AI自动驾驶系统（Full AI End-to-End），是特斯拉最重要的一次升级。

　　直播45分钟，FSD Beta V12系统在行驶全程进展非常顺利，能够轻松绕过障碍物，识别道路各种标志。

　　V12系统从头到尾都是通过AI实现。我们没有编程，没有程序员写一行代码来识别道路、行人等，全部交给了神经网络。

　　独特的地方在于，特斯拉99%的决策都交给神经网络给出，视觉输入，控制输出，就像人类大脑一样。

　　不过，直播中，V12出现仅有一次的小失误，试图闯过红灯，让人类去主动干预。马斯克现场来了个紧急刹车。

　　行驶中，马斯克称，特斯拉遇到的这些建筑、道路标志，是从未见过的。虽然离总部很近，但是对其来说还是新事物。

　　马斯克表示，这完全是通过人工智能和摄像头实现的，就如同我们大脑运作方式一样，对应之为神经网络和眼睛。

　　马斯克激动地称，没有一行代码让特斯拉，在停车标志处停车，或等待另一辆车，没有「等待x秒」之类代码。这都是神经网络，除了神经网络什么也没有。

　　说着说着，第一个目的地斯坦福到了。马斯克还是惦记着和小扎来场笼斗，因此第二个目的——小扎的家。

　　这里，马斯克再次重申道，团队从未对环形交叉路口的概念进行编程。我们刚刚向它展示了一堆关于环形交叉路口的视频。

　　FSD AI现在只输入大量视频，以便识别在不同情况下需要做什么，而不是对每个道路元素或情况进行单独编码。

　　这使得特斯拉能够省去FSD V12中的数十万行代码，使其更加轻便、更灵活，同时它仍然可以在不熟悉的地形上无需数据连接的情况下工作。

　　马斯克介绍，所有这些都是在Tesla HW3上完成的，推理计算功率约为100瓦。所有推理无需网络连接，在本地进行。显然这是必要的，如果没有互联网连接，你就无法安全驾驶。

　　我们正在以全帧率运行。8个摄像头以每秒36帧的速度进行拍摄。纯AI版本比「普通软件和人工智能混合」的版本运行得更好更快。事实上，它的拍摄速度将超过每秒36帧，只是摄像头只能达到36 fps。据我们推算，它可能以每秒50帧的速度拍摄，实际路况基本上只需要每秒24帧，FSD V12就可以正常工作。

　　首先是，训练视频的质量非常重要，所以只能用优秀司机的驾驶视频来训练，而不能用技术不好的司机的数据。

　　因此，V12系统使用了Python的普通软件来决定从队列中选择哪些数据，然后确定什么是高质量数据，什么是相当好的数据。

　　一旦有了AI模型，还可以将这些模型以「影子模式」（shadow mode）传送到系统上，然后每次它与用户所做的事情不一致时，特斯拉都会得到数据，这比仅仅收集随机数据更有价值。

　　用V12的FSD可以识别人像，只要传一张照片，然后告诉汽车你在星巴克门口。车到了之后会找到你，接你上车。因为它可以自动找到星巴克，然后根据照片找到乘客。

　　「我们已经从V11的显式控制堆栈中的超过300,000行C++进行了转换，而在V12中基本上没有这些内容」。

　　还有一个有趣的困难是，对于停车问题，因为人类在遇到停车标识时不会真的停下来，只会降到很低的速度，大概只有不到1%的驾驶员会完全让车停下来。

　　他还在试驾直播之前串进了WholeMars的Space，和里面的开会的网友聊了10多分钟，为自己的直播预热。

　　网友看到他进来了，就不自觉地开始采访他，他也顺势打开了话匣子，和网友聊了聊自己马上要进行的直播和相关的问题。

　　而目前他们遇到的最大技术困难是需要像Infiniband那样的高速网络连接来并行更大的算力。

　　GPU虽然短缺，但是至少有改善的希望，但是现在支持Infiniband设备短缺比GPU的短缺还严重。

　　GPU的能耗比也不太好，而且现在像H100这样的GPU已经不会输出图像了，所以叫GPU已经不太合适了。

　　马斯克还在推上表示，使用自回归Transfomer的LLM能效极差，不仅在训练中如此，在推理中也是如此。我认为它偏离了几个数量级。

　　所有的训练都是基于英伟达的GPU和Dojo，而且AI驾驶连地图都不需要，只需要GPS数据就行。