請登錄后使用快捷導航
沒有賬號？立即注冊

快捷導航

D-Think | 東遠科技-廣州東遠智能科技有限公司- › 首頁 ›資訊› 科技頭條 › 查看內(nèi)容

2024年，自動駕駛會迎來質(zhì)的改變嗎？｜甲子光年智庫

2024-5-13 14:41| 發(fā)布者: admin| 查看: 200| 評論: 0

摘要: 一文讀懂端到端自動駕駛。作者｜翟惠宇編輯｜王博89.2萬人次，這是今年北京國際汽車展覽會（以下簡稱“北京車展”）的觀眾人數(shù)，而上一屆北京車展的觀眾人數(shù)是53萬人次。「甲子光年」在現(xiàn)場觀察到，相比于前幾屆車展 ...

一文讀懂端到端自動駕駛。

作者｜翟惠宇

編輯｜王博

89.2萬人次，這是今年北京國際汽車展覽會（以下簡稱“北京車展”）的觀眾人數(shù)，而上一屆北京車展的觀眾人數(shù)是53萬人次。

「甲子光年」在現(xiàn)場觀察到，相比于前幾屆車展燃油車和新能源汽車大戰(zhàn)的場景，今年北京車展完全沒有能源類型的競爭，幾乎所有車企都在推出新能源車型。

大模型是本次車展的一個重要主題，很多廠商都把大模型上車作為一個宣傳亮點。而自從特斯拉開啟了端到端自動駕駛潮流，端到端已經(jīng)成為自動駕駛領(lǐng)域必須攻克的高地。

元戎啟行、商湯科技、小鵬汽車都在車展上展示了其最新的端到端自動（智能）駕駛方案。5月20日，小鵬汽車的AI天璣系統(tǒng)將全量推送覆蓋小鵬 X9、G6 、G9 、P7i四款車型所有的Pro和Max版本。

小鵬汽車董事長何小鵬在北京車展期間接受媒體群訪時表示，原先智能駕駛需要大量代碼制定規(guī)則，即使達到一萬行，可能也只能實現(xiàn)50%的規(guī)則能力。“2025年智能駕駛會發(fā)生質(zhì)的改變?，F(xiàn)在看甚至提前一年，因為技術(shù)比我想象中更快?！焙涡※i說，“隨著端到端技術(shù)的出現(xiàn)，我們僅需投入數(shù)十億（元）的訓練費用，便可以在一年內(nèi)大幅提升產(chǎn)品性能，這將極大加快自動駕駛技術(shù)在實際應用中的普及速度。”

但也有人把特斯拉的端到端大模型方案奉為圭臬，認為必須按照特斯拉的方案，即傳感器數(shù)據(jù)和車輛狀態(tài)信息輸入單一大模型后直接輸出車輛控制指令，才是真正的端到端自動駕駛方案。

這種爭議在機器人領(lǐng)域也有，比如人形機器人Figure 01宣稱的“端到端神經(jīng)網(wǎng)絡”就引發(fā)了討論。

出門問問創(chuàng)始人、CEO李志飛認為，原理上，F(xiàn)igure看起來類似于Google在2023年3月發(fā)布的PaLM-E和RT-1的pipeline組合，而不是Google于2023年7月發(fā)布的端到端模型RT-2。

“'端到端'這個事，不同人的理解不一樣?！北本┐髮W計算機學院助理教授、博士生導師董豪告訴「甲子光年」，“有的人認為RT-2這種直接輸出action的才叫'端到端'，但是那種方法缺點很明顯，調(diào)用大模型的頻率比較高，算力消耗特別大，而且很難做到比較高的決策速度。Figure說的‘端到端’，不是指直接輸出action，而是由高頻的模型來輸出action。”

那么端到端自動駕駛技術(shù)是什么？端到端大模型是否是自動駕駛最優(yōu)解呢？本文，「甲子智庫」將帶來大模型在自動駕駛領(lǐng)域的應用和發(fā)展方向分析。

1.自動駕駛技術(shù)的迭代與大模型應用

縱觀自動駕駛技術(shù)的發(fā)展歷程，人工智能的不斷突破顯著提升了自動駕駛的感知性能。從卷積神經(jīng)網(wǎng)絡（CNN）的引入，到循環(huán)神經(jīng)網(wǎng)絡（RNN）的應用，再到結(jié)合鳥瞰圖（BEV）與Transformer模型的創(chuàng)新，每一次的技術(shù)進步都在增強自動駕駛的精確度與安全性。

特別是基于Transformer的BEV感知模型，已經(jīng)獲得了業(yè)界的廣泛認可。大模型技術(shù)不僅加速了自動駕駛技術(shù)的演進，也為城市導航輔助系統(tǒng)（NOA）的普及和深入應用打下了堅實的基礎，極大提高了智能駕駛產(chǎn)品的用戶滿意度。

2024年，自動駕駛會迎來質(zhì)的改變嗎？｜甲子光年智庫

當前主流自動駕駛方案的核心在于“感知-決策規(guī)劃-控制”的模塊化結(jié)構(gòu)，其中“感知”是前置模塊且至關(guān)重要。它確保車輛能夠?qū)崟r、準確地掌握周圍環(huán)境，是實現(xiàn)安全無人駕駛的關(guān)鍵前提。

自動駕駛感知技術(shù)的發(fā)展已經(jīng)經(jīng)歷了幾個關(guān)鍵階段：

卷積神經(jīng)網(wǎng)絡（CNN）：憑借在圖像識別上的卓越性能，CNN成為自動駕駛感知的起點，可以有效整合圖像與雷達數(shù)據(jù)，提升對道路和交通元素的識別能力；

循環(huán)神經(jīng)網(wǎng)絡（RNN）與生成對抗網(wǎng)絡（GAN）：RNN擅長處理時間序列數(shù)據(jù)，而GAN能創(chuàng)造逼真的合成數(shù)據(jù)，兩者結(jié)合，增強了自動駕駛系統(tǒng)在行為預測和路徑規(guī)劃方面的能力；

鳥瞰圖（BEV）：BEV通過將三維數(shù)據(jù)投影到二維平面，提供了清晰的環(huán)境視圖，優(yōu)化了路徑規(guī)劃和避障決策；

BEV與Transformer的結(jié)合：BEV+Transformer大模型結(jié)合了Transformer的序列數(shù)據(jù)處理能力和BEV的環(huán)境概覽，實現(xiàn)了更精細的環(huán)境理解和更全面的預測能力。此外，特斯拉在2023年進一步推出了占用網(wǎng)絡模型，進一步提升了對三維環(huán)境的感知精度。

基于Transformer的BEV感知大模型已經(jīng)成為自動駕駛領(lǐng)域的主流技術(shù)趨勢，它推動了“重感知、輕地圖”的技術(shù)路徑，并加速了城市導航輔助系統(tǒng)（NOA）的量產(chǎn)與規(guī)模化應用，進而實現(xiàn)“全國都能開”。AI大模型無疑是自動駕駛行業(yè)發(fā)展的有力助推器。

2024年，自動駕駛會迎來質(zhì)的改變嗎？｜甲子光年智庫

事實上，在OpenAI推出ChatGPT之前，Transformer架構(gòu)就已在自動駕駛感知領(lǐng)域得到推廣與使用，并隨著數(shù)據(jù)量增長與穩(wěn)定性提升實現(xiàn)了相關(guān)產(chǎn)品的規(guī)?；渴稹?/span>

整體而言，自動駕駛中大模型技術(shù)的運用可分為云端和車端兩大類：

云端：

自動數(shù)據(jù)標注：通過大模型的自監(jiān)督預訓練，結(jié)合少量人工微調(diào)，實現(xiàn)視頻數(shù)據(jù)的自動標注，提升標注精度，減少人工復審，大幅提高效率。

數(shù)據(jù)挖掘：利用大模型的泛化能力，挖掘長尾數(shù)據(jù)，如CLIP模型通過文本描述進行圖像檢索。

知識蒸餾：大模型學習豐富特征后，通過知識蒸餾技術(shù)傳遞給小模型，提升后者性能與準確度。

場景重建與數(shù)據(jù)生成：采用NeRF技術(shù)進行場景隱式存儲和渲染監(jiān)督學習，實現(xiàn)場景重建和生成高真實感數(shù)據(jù)。

車端：

模型合并：整合處理各類子任務的小模型為一個綜合性“大模型”，通過聯(lián)合推理提升感知算法的準確度和響應速度。

物體檢測：運用大模型進行固定物體檢測，如車道線、交通燈等，其檢測性能不受外部條件如天氣、時間變化的影響。

車道拓撲預測：基于BEV的feature map，運用自回歸編解碼網(wǎng)絡將BEV特征解碼為結(jié)構(gòu)化拓撲點序列，實現(xiàn)車道拓撲的預測。

在數(shù)據(jù)驅(qū)動的新時代背景下，自動駕駛技術(shù)正在經(jīng)歷一場深刻的技術(shù)變革。大模型技術(shù)的應用已經(jīng)從云端向車端延伸，涵蓋了自動數(shù)據(jù)標注、數(shù)據(jù)挖掘、目標感知乃至車道拓撲預測等關(guān)鍵領(lǐng)域。這些應用凸顯了大模型技術(shù)在自動駕駛領(lǐng)域的關(guān)鍵地位，并展示了其對行業(yè)的深遠影響。

在主機廠與自動駕駛廠商對感知模型的開發(fā)與訓練中，Transformer大模型早已不是新客，并已經(jīng)開始在感知模塊之外的其他領(lǐng)域嘗試使用。隨著大模型技術(shù)的進步與模型訓練方式的進一步革新，端到端大模型為自動駕駛技術(shù)的進一步發(fā)展提供了新的思路。

2.端到端大模型謀劃上車

繼BEV+Transformer與OCC占用網(wǎng)絡之后，端到端自動駕駛技術(shù)開始受到廣泛關(guān)注。特斯拉作為行業(yè)的先鋒，其推出的FSD V12系統(tǒng)便是端到端自動駕駛技術(shù)的典范。那么端到端自動駕駛和模塊化自動駕駛有什么不同？

2024年，自動駕駛會迎來質(zhì)的改變嗎？｜甲子光年智庫

從高精地圖到無圖的“全國都能開”，從高速NOA到城區(qū)NOA，AI大模型的應用已經(jīng)幫助行業(yè)L2++級別的自動駕駛功能量產(chǎn)上車并投入規(guī)?；褂茫粩鄾_擊著L3的界限。但如何從L2++真的跨越到L3/L4，始終是橫亙在自動駕駛從業(yè)者面前的難題。

在ChatGPT的成功之后，由“大算力+大模型+大數(shù)據(jù)”驅(qū)動創(chuàng)造的“智能涌現(xiàn)”，為自動駕駛帶來了新的路徑選擇。

現(xiàn)階段已經(jīng)上車的智能駕駛產(chǎn)品，絕大多數(shù)采用了“感知-規(guī)劃-控制”串聯(lián)的模塊化架構(gòu)。攝像頭、雷達、IMU、激光雷達等傳感器采集到的信息先交由感知模塊進行空間感知計算；感知模型輸出結(jié)果后，再交由基于規(guī)則的規(guī)劃模塊，進行相應的決策與路徑規(guī)劃；控制模塊再根據(jù)決策規(guī)劃的結(jié)果，最終生成車輛轉(zhuǎn)向角、制動力、油門/電門等動作。

在當前的自動駕駛技術(shù)發(fā)展中，深度學習算法與大模型仍主要集中在提升“感知”模塊的性能。出于對行車安全的考量，決策規(guī)劃模塊目前仍然依賴于基于規(guī)則的方法。然而，這種基于規(guī)則的決策模型在應對城市復雜交通環(huán)境和不斷出現(xiàn)的極端情況（corner case）時仍顯不足，這導致高級別的自動駕駛在實際運行中難以保證完全不需要人工干預。

而端到端架構(gòu)則有所不同，它比模塊化的系統(tǒng)架構(gòu)更加簡潔。狹義的端到端模型并不拆分感知、規(guī)劃、控制等模塊。相反地，端到端模型是一體化的，傳感器信號作為模型的輸入，輸出則直接用于車輛執(zhí)行器的加減速與轉(zhuǎn)向的指令。在足量優(yōu)質(zhì)數(shù)據(jù)與充沛算力的加持下，進行統(tǒng)一訓練。隨著自動駕駛領(lǐng)域數(shù)據(jù)量的持續(xù)增長，為訓練更為先進的決策模型提供了條件，使得端到端的自動駕駛模型成為可能，為未來徹底解決人工接管問題打好基礎。

特斯拉今年3月在北美地區(qū)全面推送FSD Beta V12.3版本，此次升級的最大亮點是引入了特斯拉CEO埃隆·馬斯克（Elon Musk）引以為傲的“端到端神經(jīng)網(wǎng)絡”技術(shù)，這一變革被譽為“改變游戲規(guī)則的技術(shù)”。

特斯拉介紹，F(xiàn)SD Beta V12.3將城市街道駕駛堆棧升級為一個在數(shù)百萬視頻片段上訓練的端到端神經(jīng)網(wǎng)絡，取代了超過30萬行的顯式C++代碼。這意味著汽車操控邏輯已經(jīng)實現(xiàn)交由神經(jīng)網(wǎng)絡處理，而不是由程序員編寫的代碼。

國內(nèi)一些領(lǐng)先的企業(yè)也在跟進這一技術(shù)的研發(fā)與部署。剛剛結(jié)束的北京國際汽車展覽會也印證了這一點：商湯科技、元戎啟行等國內(nèi)AI企業(yè)的端到端智能駕駛量產(chǎn)方案在北京車展亮相，“端到端大模型上車”成為熱議話題。元戎啟行展出了基于端到端模型的量產(chǎn)智能駕駛方案DeepRoute IO，商湯絕影也在現(xiàn)場展示了面向量產(chǎn)的端到端自動駕駛解決方案 UniAD (Unified Autonomous Driving) 的道路測試表現(xiàn)。

2024年，自動駕駛會迎來質(zhì)的改變嗎？｜甲子光年智庫

從開發(fā)的角度來看，“端到端”概念的引入是革命性的。主流的規(guī)劃方案仍然基于手寫規(guī)則，高度依賴提前設計的先驗規(guī)則與傳統(tǒng)算法的優(yōu)劣，遇到bad case時需要持續(xù)不斷添加規(guī)則，以打補丁的方式實現(xiàn)模型調(diào)優(yōu)。

相比之下，沒有進行任務拆分的端到端自動駕駛則摒棄了傳統(tǒng)自動駕駛中感知、規(guī)劃、控制各大模塊及下邊的各類子任務，能夠?qū)崿F(xiàn)輸入傳感器數(shù)據(jù)可直接輸出車輛動作控制。

整體來看，端到端的優(yōu)點包括但不限于：

數(shù)據(jù)驅(qū)動：用于模型訓練的數(shù)據(jù)規(guī)模與數(shù)據(jù)質(zhì)量是影響最終產(chǎn)品性能的主要因子，僅需要少量的人工編碼。通過擴大優(yōu)質(zhì)訓練數(shù)據(jù)的規(guī)模，可以不斷提升系統(tǒng)的能力上限，并通過數(shù)據(jù)驅(qū)動的方式不斷響應長尾場景下的數(shù)據(jù)回傳，更新模型參數(shù)，大幅降低甚至完全消除對人工編碼的需求。

整體最優(yōu)： 端到端旨在服務整體目標，而不是每個模塊單獨一個目標，提煉并壓縮優(yōu)質(zhì)駕駛數(shù)據(jù)的經(jīng)驗，實現(xiàn)“老司機”般絲滑的駕駛體驗。

消除誤差：一體化的模型結(jié)構(gòu)可以減少各模塊之間信息傳遞的延遲，且全棧神經(jīng)網(wǎng)絡的上下層之間可以傳遞全量的信息，消除累計誤差，讓自動駕駛系統(tǒng)反應更加敏捷和準確。

3.端到端大模型面臨的挑戰(zhàn)

端到端自動駕駛系統(tǒng)的優(yōu)勢日益明顯，其借助大模型技術(shù)的深入應用，為自動駕駛技術(shù)的進一步發(fā)展提供了一條高效率的途徑。然而，端到端是否成為自動駕駛未來發(fā)展的唯一道路，目前還存在一些疑問。

當前端到端自動駕駛系統(tǒng)的開發(fā)和實施正面臨一系列挑戰(zhàn)。

2024年，自動駕駛會迎來質(zhì)的改變嗎？｜甲子光年智庫

首先，端到端大模型的解釋性不足，這對于將安全性放在首位的自動駕駛領(lǐng)域是一個亟待解決的問題。當端到端系統(tǒng)出現(xiàn)問題時，它不像模塊化系統(tǒng)那樣能夠逐步分析中間結(jié)果，從而定位問題源頭。在文本和圖像生成等場景中，大模型的容錯成本較低，但在自動駕駛領(lǐng)域，一旦出錯，代價卻極為昂貴。這成為了端到端系統(tǒng)通過驗證測試并實現(xiàn)產(chǎn)業(yè)化的關(guān)鍵障礙。

其次，端到端自動駕駛大模型，類似于大語言模型，其核心在于對海量優(yōu)質(zhì)駕駛視頻片段的學習和提煉，這需要極大的高質(zhì)量數(shù)據(jù)集。

以特斯拉的FSD V12系統(tǒng)為例，它需要神經(jīng)網(wǎng)絡學習數(shù)百萬的視頻片段。這不僅涉及到數(shù)據(jù)采集的挑戰(zhàn)，還包括從海量數(shù)據(jù)中篩選和清洗出高質(zhì)量數(shù)據(jù)的難題。FSD是特斯拉的選裝功能，但由于價格過高，F(xiàn)SD的選裝率常年在低位徘徊。即便在比例較高的美國，F(xiàn)SD的選裝率也不足20%。為了加強FSD的吸引力，幫助特斯拉獲得更多訓練數(shù)據(jù)，特斯拉FSD的美國售價已經(jīng)快速“腰斬”：2023年9月，F(xiàn)SD套餐價格從15000美元降至12000美元，又在今年4月降至8000美元；月度訂閱價格也在4月從199美元/月降至99美元/月。

而在北京車展上，極越宣布將于2026年量產(chǎn)上車英偉達1000TFLOPS高性能計算平臺Thor，滿足未來全場景端到端的智駕需求，“為用戶帶來安全、先進的智能移動出行體驗”。而對于端到端大模型的數(shù)據(jù)問題，極越CEO夏一平今年3月曾對「甲子光年」表示，大模型訓練比較核心的東西不是數(shù)據(jù)比誰多，而是比誰有更多的高質(zhì)量數(shù)據(jù)，“數(shù)據(jù)質(zhì)量很重要。數(shù)據(jù)質(zhì)量不好，訓練出的模型可能就是有缺陷的?！?/span>

最后，大模型的訓練需要巨大的投資，包括高質(zhì)量視頻數(shù)據(jù)的采集和算力資源的大幅增加。埃隆·馬斯克曾提出，到2024年底，特斯拉的訓練算力將達到100EFLOPS，這是一個令人震驚的目標。對于國內(nèi)企業(yè)來說，算力資源的積累問題將變得更加突出。

盡管如此，端到端技術(shù)以其創(chuàng)新的理念，為實現(xiàn)完全無人駕駛的目標提供了新的可能性。隨著技術(shù)的不斷進步和行業(yè)的共同努力，這些挑戰(zhàn)有望被逐一克服。特斯拉計劃推出的robotaxi產(chǎn)品，顯示了其在自動駕駛領(lǐng)域的雄心壯志，預示著技術(shù)正朝著更高級的階段邁進。同時，商湯科技、元戎啟行、毫末智行等國內(nèi)企業(yè)的積極參與，也展現(xiàn)了中國在自動駕駛技術(shù)領(lǐng)域的潛力和決心。

“2024年誰還沒落地‘智駕全國都能開’，誰就會掉隊?！边@是夏一平今年3月受訪時的表達的觀點。

不過，何小鵬在北京車展期間談到端到端技術(shù)應用時也很明確地指出：“目前，許多企業(yè)聲稱他們能在全國范圍內(nèi)提供服務，但實際上他們?nèi)匀灰蕾囉诟呔貓D，看起來速度快但高精地圖目前僅覆蓋全國公路的不到1%。當車輛從A路開到B路時，如果沒有高精地圖的支持，服務就會立即中斷。只有完全擺脫對高精地圖的依賴，才能在雜場景下得到應用?！?/span>

如同今年年初汽車行業(yè)的價格戰(zhàn)一樣，接下來，主機廠及供應商在自動（智能）駕駛方面的競爭勢必會更加激烈。

不要忘了，馬斯克前段時間來了北京，特斯拉FSD在中國落地或許就在不遠的將來。

（封面圖由AI生成）