「『端到端』并非靈丹妙藥?!?/span> 乍看之下,蔚來 AI 平臺負責(zé)人、資深研發(fā)總監(jiān)白宇利這一觀點,容易讓外界產(chǎn)生蔚來動搖對端到端路線的誤會。 實際上,這是蔚來方案的重申。蔚來計劃是把規(guī)劃和控制的代碼模型化之后,再做更具整合性的「端到端」大模式。 目前,小鵬、理想、蔚來的「端到端」大模式路線,都是類似「散裝」——「打散了重裝」——「端到端」大模式。 6 月 8 日,在 2024 中國汽車重慶論壇上,理想汽車董事長兼 CEO 李想發(fā)表了關(guān)于自動駕駛技術(shù)路線的新思考: 「端到端+VLM(視覺語言模型)+生成式的驗證系統(tǒng),會是未來整個物理世界機器人最重要技術(shù)架構(gòu)和技術(shù)體系?!?/span> 李想認為不能依賴端到端解決 corner case,而是要提升能力。用視覺語言模型即 VLM,讓車面對路口、紅綠燈等能夠及時作出反應(yīng)。 作為「國內(nèi)首個端到端上車」的車企,5 月 20 日,小鵬汽車宣布上車的端到端大模型由三部分組成,分別是神經(jīng)網(wǎng)絡(luò) XNet(側(cè)重于感知和語義),規(guī)控大模型 XPlanner 和大語言模型 XBrain(側(cè)重于整個大場景的認知)。 小鵬、理想、蔚來的策略,有別于特斯拉提出的借助完全依賴神經(jīng)網(wǎng)絡(luò)處理的「端到端」大模型,解決 corner case——神經(jīng)網(wǎng)絡(luò)只是一個環(huán)節(jié)。 說起來,國內(nèi)智駕行業(yè)論壇聊起來都沒人知道,特斯拉到底是怎么做到的。 「沒有任何人敢說端到端都是神經(jīng)網(wǎng)絡(luò)?!乖凇付说蕉恕拱l(fā)布會后,何小鵬接受媒體采訪時表示,「它是在一個體系里面完成的,就像剎車在哪里,它一定是有規(guī)則體系的。我們在規(guī)則體系里面有一個優(yōu)勢,能夠把剎車控制器的算法沙盒做好?!?/span> 英偉達汽車事業(yè)部副總裁吳新宙認為,端到端正是智駕三部曲的最終曲。 面對終局之戰(zhàn),今年 2 月,特斯拉端到端大模式啟動商業(yè)化孩子會,前后幾家新勢力代表的車企立下「端到端」上線時間表。 2024 年過去了一半,今年能否成為端到端上車「元年」? 從國內(nèi)的小鵬率先上車端到端大模式,回溯到「古典主義」端到端大模式的特斯拉,要攻下端到端堡壘,國內(nèi)車企應(yīng)該怎么走?繪制一張從學(xué)界到業(yè)界完整端到端大模型的圖譜,或許能夠讓人們找到車企在其中的位置。 01、小鵬之后,下一個「端到端」智駕規(guī)?;慨a(chǎn)是誰? 2023 年 8 月,特斯拉 FSD V12 版本問世,成為首家成功量產(chǎn)「端到端」架構(gòu)的車企。 今年 2 月,特斯拉將基于端到端架構(gòu)的 FSD V12 版本向部分普通用戶推送,啟動商業(yè)化落地。 FSD V12 的流暢性、令人驚艷的體驗感,初露鋒芒。 2024 年 5 月,小鵬宣布「端到端」架構(gòu)上車。 整體來說,以車企為代表,「端到端」有三大派:整車廠、自動駕駛企業(yè)、學(xué)術(shù)機構(gòu)。學(xué)界和工業(yè)界一些切入「端到端」大模式甚至早于特斯拉。 車企方面,蔚來、理想、小鵬、小米、極越、智己、廣汽、長城、極氪等,成為國內(nèi)第一批公開行動或表態(tài)者。 近期,蔚來單獨設(shè)立了一個大模型部,專門負責(zé)端到端的模型研發(fā),由原感知部門和規(guī)控部門下的模型部合并而來。 調(diào)整后,蔚來智駕的核心業(yè)務(wù),分為「云」(大模型部)和「車」(部署架構(gòu)與方案部)兩塊,取消原來按照功能(感知、地圖、數(shù)據(jù)、規(guī)控等)模塊劃分的方式。 「云」負責(zé)創(chuàng)造出更好的基礎(chǔ)模型,去支持未來「車」端的迭代。 「云」,意味著迅速打破算力瓶頸的可能。 目前,蔚來打通了邊緣計算的能力,車云算力聯(lián)合調(diào)度,在蔚來整體端云上的算力,有 287.1 EOPS,相當(dāng)于 100 個分布式的千卡訓(xùn)練集群,「這基本和特斯拉的 10 萬片 H100 的算力規(guī)模差不多?!?/span> 蔚來采取的是漸進式「端到端」大模型技術(shù)路線。 蔚來智能駕駛研發(fā)副總裁任少卿認為,做端到端大模型的前提是智駕各功能模塊都已經(jīng)完成模型化,且足夠性能與效率的工程體系支撐,「大家沒辦法模型化,很多時候是因為你的工程體系支撐不了這件事」。 比如,需要有快速訓(xùn)練一個模型再快速驗證的能力,「你這個事兒才玩的下去」「你得有一些基本的能力之后,(端到端大模型)這玩意才有用,否則它是個毒藥?!?/span> 2023 年年底,理想在「算法研發(fā)」團隊下也為端到端模型單獨成立了一個團隊。 算法研發(fā)除了要負責(zé)端到端模型的研發(fā),也要負責(zé)三季度無圖城市 NOA 的量產(chǎn)。 目前,理想正在做端到端架構(gòu)的封閉開發(fā):端到端+VLM(視覺語言模型)+生成式的驗證系統(tǒng)。 「最早在今年年底,最晚在明年上半年,真正有監(jiān)督的 L3 自動駕駛就可以批量向用戶交付了,而不是做實驗?!苟遥窵4 級別無監(jiān)督的自動駕駛在三年內(nèi)一定能夠?qū)崿F(xiàn)?!估钕氡硎?。 此前,理想汽車與清華大學(xué)交叉信息研究院一直在進行聯(lián)合研究。 今年 2 月,雙方團隊聯(lián)合發(fā)布了論文《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》。 小鵬的端到端大模型,據(jù)說未來能實現(xiàn) 2 天一次迭代,未來 18 個月智駕能力提升 30 倍。 有別于外界以前覺得端到端 AI 大模型就是一個大的網(wǎng)絡(luò),小鵬汽車智能駕駛技術(shù)負責(zé)人李力耘表示: 「我們對 AI 的認知也提出了 XBrain、XNet、XPlanner,既有聯(lián)系又有分工,能夠非常好地提升 AI 智駕能力上限?!?/span> 這是小鵬真正去量產(chǎn)端到端大模型的一個重要原因。 除了「蔚小理」,還有幾家態(tài)度比較明確。
一些車企采取了比較謹慎的態(tài)度,比如極氪。極氪內(nèi)部認為「在數(shù)據(jù)量不充分、安全性難以保證的當(dāng)下,更多將『端到端』技術(shù)路線作為預(yù)研項目」。 整體來說,大部分車企和極氪類似,認可「端到端」的發(fā)展趨勢,行業(yè)轉(zhuǎn)向『端到端』架構(gòu)的方向非常明確。 二是智駕供應(yīng)商,已經(jīng)有多家發(fā)出比較堅定的技術(shù)轉(zhuǎn)向的聲音,并有方案正在推出。目前,包括華為、Momenta、元戎啟行、商湯絕影等國內(nèi)頭部企業(yè)已經(jīng)公開端到端自動駕駛方案在 2024-2025 年上車的規(guī)劃。 三是學(xué)術(shù)界方面,以上海人工智能實驗室,跨界合作的華中科技大學(xué)(與地平線合作)和南洋理工大學(xué)(和英偉達合作)以及劍橋大學(xué)工程系團隊創(chuàng)辦的 Wayve 等為代表,推出多篇優(yōu)秀論文。
此外,南洋理工大學(xué)和英偉達也合作提出了一個新框架。 實際上,早在幾年前英偉達已經(jīng)在使用「端到端」深度學(xué)習(xí),并開發(fā)出了無人駕駛的 Demo 系統(tǒng)。 署名作者 Gongjin Lan、Qi Hao 近期發(fā)布論文《End-To-End Planning of Autonomous Driving in Industry and Academia: 2022-2023》梳理2022 年-2023 年工業(yè)界和學(xué)術(shù)界中的自動駕駛「端到端」規(guī)劃(左側(cè)欄為各公司及研究機構(gòu)項目) 「端到端」的出現(xiàn)是相關(guān)技術(shù)長期積累的結(jié)果,但仍處于上車的初級階段。 應(yīng)對長尾問題(corner case)的能力更強,不少車企或許都能實現(xiàn),但是在這背后容易忽視的是「端到端」大模型系統(tǒng)實現(xiàn)所要付出的成本。 02、大模型之后,「端到端」走向高端&低端? 「端和端」架構(gòu)正在分出不同的發(fā)展脈絡(luò)。 在特斯拉 FSD V12 中,靠神經(jīng)網(wǎng)絡(luò)模型完成的落地效果已經(jīng)收到不少追捧聲音。 由于不再需要用于設(shè)置規(guī)則的具體指令,特斯拉工程師刪除了 30 萬行定義駕駛規(guī)則的 C++代碼。 曾備受關(guān)注的上海人工智能實驗室的自動駕駛?cè)珬?煽亍付说蕉恕狗桨?UniAD 的提出者李弘揚,在 2021 年注意到自動駕駛系統(tǒng)開源項目 Openpilot,一個「端到端」的系統(tǒng)設(shè)計。 相比特斯拉,他驚嘆于 Openpilot 低成本實現(xiàn)的良好效果,并感慨:原來自動駕駛可以做得如此簡單。 這是他開啟 UniAD 研究的一個關(guān)鍵節(jié)點。 同樣是「端到端」,如果說特斯拉的「端到端」是高「端」,那么李弘揚相關(guān)的這種低成本「端到端」可謂之低「端」。 這個對比或有不恰當(dāng)之處,但是仍然極具闡釋力: 在高「端」到低「端」之間,「端到端」架構(gòu)可以分出來具備不同特征、實現(xiàn)效果存在差異的多個技術(shù)流派。 在自動駕駛行業(yè),對「端到端」自動駕駛作評估有兩類辦法: 一是閉環(huán)評估和開環(huán)評估——這是每個端到端架構(gòu)未來都要面對的專門測試。 閉環(huán)評估可以接受到反饋信號從而形成反饋閉環(huán);開環(huán)評估則是分模塊進行,并和真實數(shù)據(jù)作對比。比如,UniAD 在開環(huán)評估中得到驗證,但是尚未在閉環(huán)評估中得到驗證。 那么,哪家的「端到端」效果最好?如何用一個簡單指標來衡量端到端大模型的有效性? 何小鵬說,對于端到端大模型的硬指標,最終看接管率。今天高速如果沒有續(xù)航的問題,可以做到 1000 公里接管一次。 在城區(qū),今天所有的城市輔助駕駛,我認為安全接管可能是百公里或者一兩百公里。但體驗接管是十公里以內(nèi)。 如果在城區(qū)開 100 公里、300 公里、500 公里接管一次,體驗完全不一樣。 可以對比的是,特斯拉應(yīng)用端到端神經(jīng)網(wǎng)絡(luò)架構(gòu)的 FSD V12 的平均接管歷程從此前的 166 英里(約 267 公里)提升到了 333 英里(約 537 公里)。 「端到端」的實現(xiàn),與 BEV+Transformer 模型關(guān)系十分密切。 車輛在感知模塊產(chǎn)生 BEV(Bird『s-eye-view),即鳥瞰圖視角,始于 2014 年的一篇論文(《「Automatic Parking Based on a Bird』s Eye View Vision System》)。 Transformer 模型則是 2017 年時 Google 提出的。 2020 年前后,Transformer 模型被引入到智駕領(lǐng)域,特斯拉率先將 BEV 與 Transformer 結(jié)合在一起。 在 2021 年底至 2022 年間,BEV 與 Transformer 實現(xiàn)深度融合,通過 Attention 機制,感知模塊和預(yù)測模塊可以通過神經(jīng)網(wǎng)絡(luò)做到「端到端」的優(yōu)化。 在感知、預(yù)測、規(guī)劃、決策的分模塊的算法中,主要用于感知模塊的 BEV+Transformer 范式可以有效提升了感知精確度,能夠?qū)⒏兄K和預(yù)測模塊在統(tǒng)一的 3D 空間中實施,通過神經(jīng)網(wǎng)絡(luò)直接完成「端到端」優(yōu)化。 這直接促進了智駕的進一步 AI 化。 從感知、預(yù)測,深入至完全的「端到端」自動駕駛框架,最終可以用神經(jīng)網(wǎng)絡(luò)模型全部替換此前的規(guī)則代碼——這就是特斯拉古典式的「端到端」大模式。 BEV+Transformer 模型規(guī)?;涞?,也是今天「端到端」有可能迅速成為現(xiàn)實的一大原因。 但是,對「端到端」懷疑的聲音一直存在。 早在 2016 年,Momenta 創(chuàng)始人曹旭東在回復(fù)「無人駕駛『端到端』的學(xué)習(xí)(end-to-end learning)是否靠譜?」時指出: 「對于無人駕駛,『端到端』不適合開發(fā)實用無人駕駛系統(tǒng),可以做 Demo,然而大規(guī)模商用卻非常困難」。 當(dāng)時曹旭東否定「端到端」的原因有三點:
時隔多年,這些問題今天也或多或少仍然存在。 不過,當(dāng)時他也坦誠,「我并不是完全否定『端到端』學(xué)習(xí),而是無人駕駛『端到端』學(xué)習(xí)目前存在以上問題,或許在將來可以得到解決?!?/span> 時至今日,曹旭東對「端到端」的態(tài)度完全轉(zhuǎn)變,Momenta 成為最看好「端到端」落地的積極派中的一員。 這個案例,正是「端到端」近年在自動駕駛領(lǐng)域內(nèi)境遇變化的最好展現(xiàn)。 幾年過去了,自動駕駛技術(shù)脈絡(luò)也從模塊化走到了神經(jīng)網(wǎng)絡(luò)?!付说蕉恕沟拿媸?,時候到了。 03、AI 引領(lǐng)革命,打贏「端到端」之戰(zhàn)核心靠算力? 刺激 2024 年 2 月至年中「端到端」這波話題走高,源于特斯拉 FSD 12.0 版本開啟推送,以及 Sora 的大火。 Sora 是基于「端到端」的 Transformer 來實現(xiàn)的。 而它生成視頻像素的能力,是解決「端到端」自動駕駛問題的關(guān)鍵。 「端到端」自動駕駛訓(xùn)練的核心是視頻生成。 因此,Sora 富有質(zhì)感的視頻,一定程度證明「端到端」路線的正確性。 特斯拉 CEO 馬斯克自信地對外稱: 「特斯拉擁有世界上最好的現(xiàn)實世界模擬和視頻生成能力」。 「特斯拉在大約一年前就能以精確的物理生成真實世界的視頻」。 與此同時,他也指出: 「我們的 FSD 訓(xùn)練算力不足,所以還沒有使用其他的視頻(所有的訓(xùn)練數(shù)據(jù)都來自汽車)進行訓(xùn)練,但當(dāng)然是可行的。今年晚些時候,當(dāng)我們有空余算力時,就會進行訓(xùn)練?!?/span> 實際上,算力難題一直存在。 2023 年 8 月,馬斯克指出,F(xiàn)SD AI 的實現(xiàn)進程「眼下的限制因素在于訓(xùn)練的算力,而非工程師人力」。 算力的稀缺和昂貴,已經(jīng)成為制約 AI 發(fā)展的核心因素。 國內(nèi)發(fā)展「端到端」,首先要考慮提升算力的實力。 從大模型之戰(zhàn)開始,囤算力成為各家行業(yè)公司的基本操作。 2022 年 8 月,阿里云宣布正式啟動張北超級智算中心,當(dāng)時號稱「全球最大的智算中心」:總建設(shè)規(guī)模為 12EFLOPS(每秒 1200 億億次浮點運算)AI 算力,超過谷歌的 9EFLOPS 和特斯拉的 1.8EFLOPS。 同年 8 月 2 日,小鵬汽車宣布和阿里云合作在烏蘭察布建成當(dāng)時中國最大的自動駕駛智算中心「扶搖」。 「扶搖」算力可達 600PFLOPS(每秒浮點運算 60 億億次),將小鵬自動駕駛核心模型的訓(xùn)練速度提升了近 170 倍。 以最新公布的車企與智駕供應(yīng)商的算力情況作對比:
在華為全聯(lián)接大會 2023 期間,華為發(fā)布昇騰 AI 計算集群 Atlas 900 SuperCluster,并表示:「中國一半大模型的算力都是由華為提供」。 即便如此,若特斯拉如期達到最新算力目標,國內(nèi)智算中心的算力都將滯后。 從 10 EFLOPS,再到下一步計劃的 100EFlops,特斯拉正在以 5 到 10 倍的增速實現(xiàn)算力擴張。 今年 2 月,特斯拉增加了 5 億美元投資在超算中心 Dojo,值得注意的是,特斯拉的人形機器人業(yè)務(wù) Optimus 也將通過 Dojo 訓(xùn)練。 當(dāng)特斯拉已經(jīng)在訓(xùn)練「端到端」大模型時,國內(nèi)車企及自動駕駛企業(yè)才剛起步。 6 月 4 日,馬斯克發(fā)推特表示,特斯拉買了 10 萬片卡,在德州的工廠上擴展了一個數(shù)據(jù)中心,放了 5 萬片卡進去。 那么,在國內(nèi)要做端到端大模型,需要多少量級的「卡」(大算力 GPU)? 特斯拉的 DOJO 智算中心,預(yù)計到 2024 年 10 月,總算力將達到 100EFLOPs(10 萬 PFLOPS),相當(dāng)于約 30 萬塊英偉達 A100 的算力總和。 以小鵬「扶搖」自動駕駛智算中心為例,算力可達 600PFLOPS(以英偉達 A100 GPU 的 FP32 算力推算,約等于 3 萬張 A100 GPU)。 100 張大算力 GPU 可以支持一次端到端模型的訓(xùn)練。大部分研發(fā)端到端自動駕駛的公司目前的訓(xùn)練算力規(guī)模在千卡級別(100 張 A100)。 毫末智行表示,要實現(xiàn)全國都能開,2000-5000 張 GPU 已經(jīng)足夠。 整體來說,盡管和特斯拉存在較大差距,但是國內(nèi)車企到 2024 年底實現(xiàn)算力的倍數(shù)級增長,并非沒有可能,并且能夠接近 1~2 年前的特斯拉。 數(shù)據(jù)、算力、算法,人工智能發(fā)展的三件套,僅算力一項,就可能讓各大車企或自動駕駛企業(yè)拉開距離。 國內(nèi)車企并不悲觀。 夏一平曾表示,「特斯拉雖然有一定領(lǐng)先,但極越在中國的落地能力一定更強」。 同樣是純視覺路線,極越已經(jīng)進化至占用網(wǎng)絡(luò)階段,確實更了解中國更加復(fù)雜的路況等,從數(shù)據(jù)積累的環(huán)節(jié)已經(jīng)和特斯拉在走分岔路。 眼下,城市 NOA 的落地仍是眼下競爭的主戰(zhàn)場。城市 NOA 的刺激,「端到端」的落地,讓國內(nèi)車企及智駕供應(yīng)商拿出各自新方案,同臺競技,決出勝負為時不遠。 |
19款電子扎帶
電路板識別電子標簽