易車訊 6月8日,理想汽車人CEO李想出席了2024中國汽車重慶論壇并發(fā)表演講。李想表示,理想汽車將在今年三季度推出無圖NOA,最早今年年底最晚明年年初,推出基于理想自研大模型和VLM視覺模型的L3級自動駕駛系統(tǒng)。李想進一步強調(diào),隨著這套技術(shù)的演進、算力的增強、模型的加大,無監(jiān)督的L4級別自動駕駛至少三年內(nèi)一定可以實現(xiàn)。 以下為演講原文: 李想表示在過去半年多的時間里,理想汽車做出的一項關(guān)于自動駕駛的技術(shù)突破,他強調(diào)這里的自動駕駛不是智能駕駛,也不是輔助駕駛,而是自動駕駛。李想進一步談到,我們內(nèi)部從去年9月份開始思考一個問題,并為此專門建立了一個用于自動駕駛研究的團隊。這個問題是人類開車為什么不涉及學習corner case(極端情況)?如果我們不能解決這個問題,所有的自動駕駛團隊每天干的活,都是靠人工去調(diào)試各種各樣的corner case,而且放的人越多,corner case越多,和真正的自動駕駛就越遙遠。 首先從理論的角度,我們先是從一本書《思考,快與慢》里得到了啟示?!端伎?,快與慢》講述了我們的大腦日常在工作的時候,分為系統(tǒng)一和系統(tǒng)二。系統(tǒng)一來處理一些需要直覺、快速響應的事情。就像很多時候我們在開車,開了10分鐘、20分鐘、30分鐘,腦子里在想別的事情,但是我們?nèi)匀荒軌蛱幚砺飞系母鞣N路況。開到家的時候忘記了過去這半個小時我們是怎么工作的,這時候意味著我們用系統(tǒng)一在工作,并不是我們的大腦不在工作,而是我們大腦以一種它獨有的方式,低能耗的方式在工作。 當我們?nèi)サ揭粋€復雜路況,比如一個十字路口,或者開車的時候遇到一個水坑,這時候我們的大腦就會調(diào)用系統(tǒng)二來工作,用它來處理這種比較復雜的邏輯推演的能力,但是它對大腦消耗比較大,所以不會一直用系統(tǒng)二的方式進行開車。解決各種復雜路況、泛化問題和未知問題,大腦會啟用系統(tǒng)二來進行工作。正常情況我們開車的時候基本上95%的時間在使用系統(tǒng)一,5%的時間使用來系統(tǒng)二,所以人腦每天并不需要很多的功耗,人也不需要學習corner case,就能學會開車。 這時候我們在想,如果人類是這樣的工作方式,那么自動駕駛應該怎么工作呢?什么是自動駕駛的系統(tǒng)一?什么是自動駕駛的系統(tǒng)二?我們隨著對各種技術(shù)研究,自動駕駛的系統(tǒng)一其實是現(xiàn)在很多自動駕駛團隊都在做的端到端的技術(shù)。端到端意味著把完整的訓練片段放進來,最后產(chǎn)生的結(jié)果是,輸入直接產(chǎn)生輸出,而不是像過往的要分成一個感知模塊、一個規(guī)劃模塊、一個決策的模塊、一個執(zhí)行的模塊。 (端到端)這樣的效率更高,但是挑戰(zhàn)也來了,各種人類的規(guī)則不會發(fā)揮作用。它的挑戰(zhàn)主要來自于三個方面:第一個是需要有真正會做端到端,包含端到端數(shù)據(jù)訓練的人才;第二個需要真正高質(zhì)量的數(shù)據(jù);第三個需要有足夠多的算力。 因為端到端對于算力的需求和以往比,變得完全不一樣了。我們過去在端到端方面做的研究測試中,放了大概100萬的clips(預訓練模型),用于端到端的訓練。大概一個月只需要做10輪左右的訓練,訓練卡(Training GPU )要足夠多,基本上可以完成一個無圖NOA相同上限的水平。 但是面對中國復雜路況,只有端到端不夠,所以我們思考什么是系統(tǒng)二。系統(tǒng)二的一個啟發(fā)是,人類解決各種各樣的corner case和各種泛化問題,并不是通過學習corner case。(我身邊的)一個明顯案例和啟發(fā)是來源于我的愛人。我愛人剛學會開車后在很長一段時間甚至連續(xù)很多年,不停地剮蹭。我和她分析下一次怎么不再剮蹭,其實沒有用,下一次還是剮蹭。我就在想,是不是因為買的車個頭太大了,一輛寶馬X6,所以我換輛小車,換一輛高爾夫GTI,她仍然會刮蹭。 這時候我們會發(fā)現(xiàn)學習corner case沒有用,我們能不能通過提升能力的方式來解決,所以當時給我愛人報了寶馬駕駛培訓初級班。寶馬駕駛培訓初級班一整天通過各種各樣的方式只教了兩個(內(nèi)容),第一個是賽道過彎、繞樁、處理環(huán)形路面的時候、打轉(zhuǎn)向之前,眼睛看往哪里,不是看即將通過的路口而是看接下來要去的地方;另外一個能力,就是在各種復雜的場景里如何把剎車踩到底,包含在濕滑路面,轉(zhuǎn)彎路面、一半鋼板一半道路的路面,如何把剎車踩到底,從而提升一個人對于整車剎車能力的認知。所以寶馬駕駛培訓初級班一整天時間只教了兩個事情,第一個是教看路的能力,第二個是教剎車的能力,沒有教任何的corner case。經(jīng)過一天的訓練,我愛人徹底和剮蹭告別了,在接下來十幾年里沒有出現(xiàn)任何剮蹭。這是人類學習開車的一個方式,我們考慮如何把這樣的一套能力給到車上。我們看到一個很重要的技術(shù)是VLM的視覺語言模型。為什么不是視覺大語言模型,而是視覺語言模型,是因為沒有辦法把一個大模型放在云端讓車使用,因為響應速度會有比較大的風險。 所以如何把視覺大語言模型進行足夠壓縮,最后能夠放到車上,能夠面對沒有紅綠燈的左轉(zhuǎn)路口提前做出預判,知道這個路口如何進行特殊處理,進行復雜的處理。它還有另外一個重要功能,就是告別高精地圖,告別所有輕圖在內(nèi)的方式。為什么?因為視覺語言模型還有一個最重要的功能,就是能夠像人類一樣去讀懂導航地圖,導航地圖的橫向、縱向、速度、時間,包含紅綠燈,哪怕有車輛遮擋紅綠燈也不會再成為問題。 我們發(fā)現(xiàn)可以有效地通過視覺語言模型來解決系統(tǒng)二的問題。一方面為端到端進行兜底,另外一方面能解決各種各樣的泛化問題。我們發(fā)現(xiàn)非常有意思,我們AD max有兩顆Orin-X芯片,正好一個Orin-X芯片跑端到端,另外一顆Orin-X芯片可以運行一個壓縮到大概20億規(guī)模的VLM模型。我們驗證的結(jié)果其實是令人非常興奮的,我們認為最早在今年年底,最晚在明年上半年,真正的L3我對L3的定義是有監(jiān)督的自動駕駛,就可以批量向用戶交付了,而不是只用于做實驗。 解決這兩個問題以后,其實還有第三個問題。因為端到端是黑盒子,VLM其實也是黑盒子,它跟過去我們在做智能駕駛、輔助駕駛的一個最大不同是,它不再是功能而是能力。我覺得AI最大的差別是能力,而過去的編程體系,最重要的是功能,因為功能在過去是要通過測試和實驗來驗證的。但是能力,一個黑盒子怎么拿測試和實驗來驗證?這是不可能的。所以這時候面臨的一個新的挑戰(zhàn)是,我們用什么樣的技術(shù)方式來驗證能力?這時候我們又找到了一個新的方式,主要的原理是來自于Sora,我們用Diffusion Transformers (DiTs)的方式來構(gòu)建一個重要的、小型的世界模型,拿這個世界模型,讓我們的車在里面考試。 所以,我們模擬人的一套真正的工作原理就開始呈現(xiàn)了。用端到端來承載人的系統(tǒng)一,VLM來承載人的系統(tǒng)二。系統(tǒng)一來解決所有自動駕駛的,這些正常的反應和駕駛的能力,系統(tǒng)二來解決兜底和泛化的能力,并應用生成式的小的世界模型來進行考試。這是我們在過去的一段時間里,做的最重要的一個技術(shù)性的突破,而且我們的研究團隊已經(jīng)通過了正常的研究驗證。 李想表示將在今年第三季度推出全國無圖NOA,并同步向測試用戶推出通過300萬clips訓練出來的端到端+VLM的監(jiān)督型自動駕駛體系。最早會在今年年底,最晚明年年初,我們會推出大概通過超過1000萬clips訓練出來的端到端+VLM,整個帶有監(jiān)督的自動駕駛的體系,我們認為這套體系會是未來整個物理世界機器人最重要的技術(shù)架構(gòu)和技術(shù)體系。 李想進一步談到,接下來的一段時間里,在AI方面的幾個關(guān)鍵的技術(shù)論壇,我們的技術(shù)研究團隊也會向整個行業(yè)來分享我們對這方面的所有的研究,包括這里的原理和實際結(jié)果,把我們進行的一些探索與同行們進行分享。 李想認為,通過這套技術(shù),帶有監(jiān)督的L3級別自動駕駛是100%可以實現(xiàn)的,最早今年年底最晚明年年初,帶有監(jiān)督的L3級別自動駕駛就可以批量向用戶交付。而且隨著這套技術(shù)的演進,算力的增強,模型的加大,李想認為無監(jiān)督的L4級別自動駕駛至少三年內(nèi)一定可以實現(xiàn)。 |
19款電子扎帶
電路板識別電子標簽