小馬智行樓天城：自動駕駛已經(jīng)沒有技術(shù)阻礙｜36氪專訪

2024-9-17 10:53| 發(fā)布者: admin| 查看: 151| 評論: 0

摘要: 文｜李安琪編輯｜李勤陷在價格戰(zhàn)泥潭的汽車公司們終于看到了差異化突圍之路，就是AI大模型對智能駕駛的塑造。“新的時代到來了?！?月10號，理想汽車CEO李想在朋友圈如此吶喊，今年開始，借助大模型能力，他們在智能 ...

文｜李安琪

編輯｜李勤

陷在價格戰(zhàn)泥潭的汽車公司們終于看到了差異化突圍之路，就是AI大模型對智能駕駛的塑造。

“新的時代到來了?！?月10號，理想汽車CEO李想在朋友圈如此吶喊，今年開始，借助大模型能力，他們在智能駕駛中部署了端到端+視覺語言模型VLM+世界模型的新技術(shù)體系。華為、蔚來、小鵬等同航道選手，也無不將“端到端”“世界模型”等技術(shù)奉為圭臬，開始重新整肅智能駕駛團隊和技術(shù)。

用AI改造智能駕駛，汽車公司似乎看到了“通往自動駕駛之路”。他們雄心勃勃，喊出“每年10億美元”的投入計劃。更早采用“端到端”技術(shù)的特斯拉更為激進，已經(jīng)宣布在10月份發(fā)布Robotaxi（自動駕駛出租車）。

似乎“端到端”成了智能駕駛行業(yè)的“銀子彈”。車企有制造、現(xiàn)金流和里程數(shù)據(jù)，如果再手握自動駕駛技術(shù)棧，無疑是另一番產(chǎn)業(yè)圖景。

對此，小馬智行CTO樓天城表現(xiàn)出了冷靜。作為成立第一天就錨定L4自動駕駛技術(shù)的公司，樓天城明確表示，今天的高階智能駕駛，即便采用了端到端技術(shù)，上限也只能做到L2.99，難以抵達L4。在行業(yè)中，L2通常指智能輔助駕駛，需要人類司機承擔(dān)駕駛責(zé)任，而L4則為自動駕駛，車輛是駕駛責(zé)任主體。

樓天城認為，根本原因在于大語言模型自身的屬性，“端到端或者大語言模型的本質(zhì)，只是擬合現(xiàn)有數(shù)據(jù)，并沒有給出某些智能邏輯。所以模型的能力會被數(shù)據(jù)的表現(xiàn)所限制?！?/strong>

8月下旬，我們在小馬智行北京辦公室見到了樓天城。小馬智行作為國內(nèi)頭部的L4級自動駕駛公司，同時也是車企的L2智駕方案供應(yīng)商，站在兩條路徑的激烈交匯處。

近2個小時交流中，樓天城談?wù)摿硕说蕉说牟煌螒B(tài)、世界模型的重要性、Robotaxi商業(yè)化、人類與AI共存等話題。

小馬智行是國內(nèi)的自動駕駛明星公司。2016年，樓天城與好友和百度同僚彭軍離開百度，共同成立了小馬智行。創(chuàng)業(yè)之前，樓天城是編程競賽圈中的風(fēng)云人物，“樓教主”的稱號也由此得名。

樓天城告訴36氪，他對智能駕駛的認知出現(xiàn)較大分水嶺的時間點是2019年。在此之前，他也認同數(shù)據(jù)量多寡對自動駕駛系統(tǒng)訓(xùn)練的重要性，但有一天他忽然意識到，過度的數(shù)據(jù)可能會造成負擔(dān)。

他表示，L2作為輔助駕駛，駕駛表現(xiàn)只要表現(xiàn)得跟人一樣就行，所以用大量的數(shù)據(jù)訓(xùn)練，能夠灌出L2級別的智能駕駛，但天花板也相對很明顯；

而L4自動駕駛系統(tǒng)的表現(xiàn)，要好于正常人類認知的10倍，因此，大量平庸的數(shù)據(jù)其實沒有益處。

“行業(yè)現(xiàn)在對數(shù)據(jù)的盲目依賴，是沒有意識到靠數(shù)據(jù)其實沒法越過這條線（人類司機的線）。當(dāng)真正接近這條線時，會意識到其實越不過去。最頂尖的人其實都知道，比如Waymo就從來沒有說過要純依靠數(shù)據(jù)?！?br>
他打了一個比方：如果自身乒乓球水平不夠，很難培養(yǎng)出一個能拿奧運冠軍的選手。這也類似于跟一個棋藝不高的人下棋過招，自身水平也難以精進，“類似臭簍棋子的數(shù)據(jù)越多，數(shù)據(jù)就會變成負擔(dān)，垃圾數(shù)據(jù)越多，干擾越大?！?br>
更好的辦法是找到出色的教練——也就是先訓(xùn)練出一個足夠好的世界模型。

“這是最重要的事情，沒有之一?！睒翘斐钦f。

世界模型可以理解為對真實世界的仿真與建模，可以真實準確地還原比如十字路口等場景的變化。

比如鬼探頭時被遮擋的行人軌跡；車輛碰撞瞬間的行人與他車反應(yīng)；甚至反應(yīng)出人在跑步時減速度可以達到重力加速度等各種細節(jié)。

同時，世界模型還可以充當(dāng)一個評分體系，對自動駕駛系統(tǒng)的表現(xiàn)做出評價?！半m然不知道哪個自駕系統(tǒng)是最好的，但可以知道A比B好?！?br>
在新勢力中，蔚來與理想等也強調(diào)世界模型的重要性。但樓天城認為，因為L2與L4產(chǎn)品屬性不一樣，后者對世界模型的要求更高。

在創(chuàng)業(yè)之前，樓天城常常參加編程競賽。他說編程競賽圈有個習(xí)慣，大牛們會經(jīng)常分享自己的解決思路，叫題解。“大家都是先把題做出來了后再寫題解，而不是自己還沒做出來就開始教別人怎么做?！?br>
樓天城也給出了自己的“自動駕駛題解”。去年8月，小馬智行已將感知、預(yù)測、規(guī)控三大傳統(tǒng)模塊打通，統(tǒng)一成One Model端到端自動駕駛模型，目前已同步搭載到L4級Robotaxi和L2級量產(chǎn)智駕中。

樓天城認為，當(dāng)下自動駕駛已經(jīng)沒有了技術(shù)阻礙，技術(shù)進程已經(jīng)過半，技術(shù)的商業(yè)化是另一項重要工作。對于Robotaxi的大規(guī)模落地，他表示在明年的時間節(jié)點，公司可以做到單車盈利轉(zhuǎn)正，這將讓公司進入良性的正反饋之中。

樓天城對AI依然抱有相當(dāng)高的天花板期待?！癛obotaxi是AI第一個最大的應(yīng)用，后面AI應(yīng)用絕不局限在此，還有更高更顛覆性的發(fā)展空間。”

“人其實也是AI。別覺得自己跟他們有本質(zhì)不同，一個新的AI Agent做的一些事情，跟人相比，有些地方平分秋色，甚至平級，甚至更好?！闭驹谌祟惖慕嵌?，他認為，應(yīng)該好好思考如何與AI一起以更好的方式去駕馭它，而不是逃避。

以下是36氪汽車與小馬智行CTO樓天城的對話，略經(jīng)編輯：

談端到端：世界模型是最重要的事情，沒有之一

36氪汽車：L4公司似乎普遍比車企智駕團隊對端到端有更早關(guān)注？

樓天城：因為L4的挑戰(zhàn)更大，更需要端到端的加持，需要用所有能想到的辦法來加持。端到端好處是，解決了信息丟失的問題。以前不同的模塊非要描述一些東西，其實在一定程度上限制了給下游傳遞的信息。

對L2來說，端到端更多的價值在于成本下降等，但對L4來說可能是從0-1的價值，意義更大，所以L4公司對端到端接觸會更早。

36氪汽車：您是什么時候開始關(guān)注到端到端方案？

樓天城：端到端有非常廣義和非常狹義的定義。早些年傳感器的前后融合，就有端到端的概念了，嚴格講，前融合是端到端的開始。因為前融合就是解決傳感器信息丟失的問題，跟端到端強調(diào)的東西是一樣的。

2016年也有公司提出了狹義端到端概念，其實不一定要基于Transformer才能做端到端，但Transformer架構(gòu)確實讓端到端變得非常好。

36氪汽車：“端到端大模型”這個詞您是怎么理解的？

樓天城：端到端有常見的基本過程，很多公司都是從感知BEV開始，慢慢把感知和預(yù)測做在一起，然后Planning（規(guī)劃模塊）用AI來做，然后再combine（聯(lián)結(jié)）到一起，慢慢發(fā)展到One Model端到端的狀態(tài)。

小馬沒有跳過某個階段，我們端到端走的很快的原因在于，不在于端到端模型本身，而是我們用于訓(xùn)練端到端的東西，一個基于仿真的世界模型，這是個很好的基礎(chǔ)。

但端到端不是大模型。如果以模型參數(shù)多少來衡量，確實讓一個更大的模型縮小，比直接去做一個小的模型效果要好，先做大再做小沒有任何問題。模型有大有小，但沒有一個東西叫做大模型。

36氪汽車：L4端到端跟L2端到端有什么不一樣的地方？

樓天城：L4的端到端有很多不同之處，可能其他玩家不做、也沒有考慮到。端到端跟數(shù)據(jù)有關(guān)系，但我提過，過度的數(shù)據(jù)是burden（負擔(dān)），端到端或者大語言模型的本質(zhì)，只是擬合現(xiàn)有數(shù)據(jù)，并沒有給出某些智能的邏輯。所以模型的能力會被數(shù)據(jù)的表現(xiàn)所限制。

說更明確一點，你跟一個臭簍棋子學(xué)下棋，那你就是他的水平，不會更高了。如果類似臭簍棋子的數(shù)據(jù)越多，數(shù)據(jù)就會變成負擔(dān)，垃圾數(shù)據(jù)越多，干擾越大。

更深一層來講，這些數(shù)據(jù)已經(jīng)教不了模型了。就像教小孩兒乒乓球，你水平都不如他那不是瞎教嗎？所以要找教練?，F(xiàn)在的做法是，訓(xùn)練一個很好的模型來訓(xùn)練端到端。而能訓(xùn)端到端模型的模型，本身就是一個很難的東西。

36氪汽車：所以對自動駕駛來說，世界模型是更重要的東西？

樓天城：對，可能都沒有之一。我覺得我們在世界模型上做的還不錯，反正比我教的好。

這也是L4公司不一樣的地方，如果做L4，一定會走到這天。我是從2018年開始想這件事情，那時候我有預(yù)感未來我可能教不了自動駕駛，的確，到2020年我已經(jīng)教不了了。

36氪汽車：教不了自動駕駛，具體是什么樣的表現(xiàn)？

樓天城：就是我水平不如他了。先說明一點，端到端的黑盒和不可解釋性是對的，只是它做的事情可能挺對的，只是我當(dāng)時沒有想到而已。跟早年看阿爾法狗下棋是一樣的，我看不懂罷了，所以我得慢慢培養(yǎng)一個世界模型來幫助我判斷駕駛模型的水平。

世界模型幫助我們一步步走過來，世界模型是最重要的事情，沒有之一。車輛的好壞表現(xiàn)也是由這個世界模型決定的。

36氪汽車：怎么看現(xiàn)在車企提出的L2級別世界模型？

樓天城：如果是L4，那系統(tǒng)表現(xiàn)要好于正常人類的10倍；但L2不需要，L2本來就是人類駕駛輔助，只要跟人想的一樣就行了。但L4的系統(tǒng)可能你都不知道哪個更好，但又不能限制它，所以需要一個更好的教練。

這跟技術(shù)管理是一樣的，作為公司技術(shù)管理層，千萬別覺得自己是公司技術(shù)最好的，如果天天這么想公司早完蛋了。最重要的是找到比自己厲害的人，培養(yǎng)他們，給他們發(fā)揮的空間。

36氪汽車：所以L2沒有辦法進化到L4？

樓天城：過度的數(shù)據(jù)沒有幫助，但其他的東西比如車端芯片、云端芯片還是有幫助進化的。數(shù)據(jù)是里面關(guān)鍵的部分，拿數(shù)據(jù)去灌輸一個世界模型是很容易的，但灌出一個好的世界模型很難。就像找一個教練容易，但找一個能教出世界冠軍的教練很難。

我也是意識到這件事情之后，才做了很多其他的事。比如選擇更好的數(shù)據(jù)，比如做一種比較的方法，雖然不知道哪個自駕系統(tǒng)是最好的，但我知道A比B好。

就像2018年騰訊的絕藝（AI圍棋）對戰(zhàn)AlphaGo一樣，我哪里評判得了他們的水平，都比我好太多了，哪知道哪個更好對不對？

36氪汽車：怎么看待當(dāng)下行業(yè)討論的分段式端到端跟One Model，兩者之間有本質(zhì)區(qū)別嗎？

樓天城：區(qū)別還是有的，還是信息傳遞和丟失的問題，分段式的話，模型與模型之間肯定會存在信息丟失，所以整個模型表達能力確實不如one model。但好處是，訓(xùn)練的難度會低一些，每段之間會有明確的輸出披露。one model的模型表達會更強，但訓(xùn)練難度也更大。

36氪汽車：端到端的黑盒、不可解釋性的挑戰(zhàn)要怎么應(yīng)對？

樓天城：看用戶接不接受黑盒，如果要輸出是可以輸出一些意圖的，比如要左轉(zhuǎn)右轉(zhuǎn)，或者掉頭這種，用戶如果需要就可以做。端到端確實解釋性差，但沒有差到讓你不安心。它不是一個blocker（阻擋者）。

談進化：L4需要的東西，L2根本不用

36氪汽車：傳統(tǒng)基于規(guī)則的多模塊方案已經(jīng)完全走到頭了嗎？

樓天城：進展上確實不如端到端，BEV加規(guī)則的方式，差的其實不是運動員，而是教練。寫規(guī)則的人就是教練，是教練水平不夠，不是運動員不行。

假如rule based方案能力在最下層，L2在中間水平，L4水平往上走?；诙说蕉耍邱{水平可以提升到L2天花板，但更往上，我們不叫端到端，而是叫foundation model （基礎(chǔ)模型）。對L4來說，資源是個加速器，可以提升更快，但資源不改變天花板。你的做法，團隊的能力，才是天花板。

36氪汽車：小馬有L4的產(chǎn)品，也有L2的產(chǎn)品，你們怎么平衡？

樓天城：我們有不同的團隊，大家已經(jīng)走過了當(dāng)年的分歧點。2020年的時候，我們意識到要有不同的技術(shù)和產(chǎn)品，于是把技術(shù)往回退到2018年水平，拆成不同的技術(shù)和產(chǎn)品方向。L2走端到端模型，L4的東西叫基礎(chǔ)模型。

36氪汽車：兩個模型之間有明顯的區(qū)別嗎？

樓天城：完全不同。L4需要的東西L2根本不需要，L2的做法是拼命灌數(shù)據(jù)，L4要做的是先訓(xùn)練世界模型。

L2考慮的是成本、用戶體驗之類的需求，L4還是考慮安全性，更注重精確操作和答案。L2是輔助，要很好的交互，操作不了就人來接管，但L4不行的時候要做得特別好。兩者剛好互補。

36氪汽車：從rule based到端到端，到基礎(chǔ)模型的訓(xùn)練，你們的工具鏈發(fā)生了什么變化？

樓天城：其實是反過來的，工具鏈的成熟度，決定了最后模型做的好壞的關(guān)鍵。比如仿真的好壞，影響著系統(tǒng)的好壞。世界模型的本質(zhì)，可以理解為是對世界的建模，可以認為它是一個評價體系。它是更重要的，它關(guān)系到L4基礎(chǔ)模型的天花板，也關(guān)系到L2端到端的學(xué)習(xí)速度和一定天花板。

36氪汽車：L4的世界模型，跟之前用的仿真工具有什么不一樣？

樓天城：世界模型必須要更好反應(yīng)世界上其他物體的真實狀態(tài)。比如在十字路口，紅綠燈的變化，行人怎么過馬路等行為。

比如著名的鬼探頭問題，在十字路口綠燈，左邊有個巴士停著，前面是空的，但它不走，可能是因為他前面有人。我們雖然看不到，但是車會減速，這個可以被表述成端到端邏輯。但另一個維度，世界模型會真正模擬一個人在車前走，只不過被擋住了。

再舉個例子，我到美國的時候，有個在美國開了很多年車的老師傅告訴我，美國行人過十字路口不看車的。他只說這一件事，所以我開車就得注意旁邊的人。我就是端到端模型，老師傅就是世界模型。

36氪汽車：但反應(yīng)世界真實情況本身，是不是就很難？

樓天城：對，但必須做到。

36氪汽車：假如說世界模型是端到端的評分體系的話，那世界模型本身的好壞怎么評價？

樓天城：這很有意思，嚴格講沒有明確的體系，他們倆互相之間糾結(jié)，然后通過實際路測來評價。現(xiàn)在通過模型來訓(xùn)練和評價模型都是常見的事情。今天，chatbot（聊天機器人）水平已經(jīng)不比人低，所以也需要訓(xùn)練模型來評價chatbot水平。

36氪汽車：您覺得特斯拉現(xiàn)在遇到的問題是什么？

樓天城：特斯拉現(xiàn)在能也很好達到L2.99的水平，這是今天已經(jīng)公開的，但還有它還沒公開的部分。

從去年末Elon的直播來看，45分鐘美國路程接管了1次，但我們無人車的里程是50萬公里出一個事故，不同的世界模型教出來的學(xué)生水平差了1萬倍。智駕系統(tǒng)的差距，光著急是沒用的，真正的差距會在世界模型這一側(cè)體現(xiàn)出來。

36氪汽車：世界模型起來之后，對智駕系統(tǒng)的泛化能力有什么幫助？

樓天城：用大語言模型幫助建立世界模型的好處巨大，因為大語言模型的數(shù)據(jù)源于世界上各種各樣的數(shù)據(jù)，比如歐洲的很多路牌我都不認識，大語言模型其實都看過。

甚至都不需要是多模態(tài)大模型，只要是大語言模型就可以。當(dāng)然多模態(tài)大模型會更好，比如SAM模型就行。

36氪汽車：什么時候可以見到小馬世界模型訓(xùn)練出來的量產(chǎn)智駕？

樓天城：我們不太方便透露主機廠的進度，但小馬的L2也有個世界模型，它訓(xùn)出來的產(chǎn)品叫PSD，它的水平也是30公里左右接管一次，這是L2普遍的水平。

訓(xùn)練一個這樣的世界模型，不需要太多數(shù)據(jù)，把我們L4的數(shù)據(jù)拿出來灌一灌就行了。我們用的都是高質(zhì)量數(shù)據(jù)，大概3000多萬公里。我們大概訓(xùn)練了半年，沒花多少人在這上面。

談投入：資源是門檻，人才會拉開差距

36氪汽車：之前連rule based（規(guī)則為基礎(chǔ)）的方案都沒有做過的車企，有可能通過端到端彎道超車嗎？

樓天城：可以，但只做到L2天花板這里。資金投入不是小數(shù)目，特斯拉買了這么多萬張卡，它一買，英偉達的股票都能長，但不是所有車企都有這樣的投資意愿。

關(guān)鍵是，還要有配套的人和團隊才能發(fā)揮出最大價值。如果這方面很差，整個投資性價比很低。所有投入下來幾個billion（十億）不止，有錢才有資格這么玩。沒錢的話，換個辦法吧。

36氪汽車：世界模型的訓(xùn)練，會對車端、云端芯片硬件有多高門檻要求？

樓天城：云端顯卡我們也有，加上預(yù)訓(xùn)練環(huán)節(jié)，投入也非常大。

當(dāng)車端算力少且傳感器少的時候，對世界模型的要求就很高。車端算力多一些肯定有好處，但今天L2 雙Orin也還ok，L4也最少要千TOPS。

行業(yè)現(xiàn)在對數(shù)據(jù)的盲目依賴，其實是沒有理解一些事情的，至少沒有意識到靠數(shù)據(jù)其實沒法越過這條線（人類司機的線）。當(dāng)真正接近這條線時，會意識到其實轉(zhuǎn)不過去。最頂尖的人其實都知道，比如Waymo就從來沒有說過要靠數(shù)據(jù)。

36氪汽車：大家對高質(zhì)量數(shù)據(jù)會有清晰的畫像嗎？

樓天城：比如50萬公里出一次事故的水平，拿200萬公里才出事故的數(shù)據(jù)來訓(xùn)練不過分吧。50萬公里的可能好找一點，某種程度上這是更可怕的司機，基本上都是被別人撞才有事故。

我們L4日常的數(shù)據(jù)采集司機，都是經(jīng)過幾年訓(xùn)練的，我們還專門提醒說好好開，不要瞎開，還不夠，因為每個人擅長的東西不一樣，我們專門開發(fā)了一些系統(tǒng)幫助辨別司機開的好壞，所以高質(zhì)量數(shù)據(jù)是有門檻的。

當(dāng)年ChatGPT出來的時候，OpenAI也在印度找了標注團隊。你能感覺它說話是很nice的，這就是標注好的數(shù)據(jù)的結(jié)果，否則就是胡來。

36氪汽車：這種屬于長時間不出錯的數(shù)據(jù)，像碰撞瞬間這種case的數(shù)據(jù)怎么獲得？

樓天城：這個的難點是在于，碰撞那一瞬間，其他車的行為是什么？因為碰撞的瞬間，其他車的行為也不是正常行為，大家也會下意識避開，所以平時積累的數(shù)據(jù)加進來可能會添亂。

非常急的情況下，人在跑步時減速度可以達到重力加速度。所以一定要對這些東西有正確的認識，世界模型才會教出好東西。這樣的仿真建模其實挺難的，我們做的還不錯。

36氪汽車：端到端之后所有的模塊要一起訓(xùn)練？會不會出現(xiàn)負優(yōu)化的情況？

樓天城：這是端到端全局梯度傳遞問題，但其實梯度消失不是負優(yōu)化，梯度消失是可能的，需要想辦法讓梯度變正，這是大語言模型或者模型中最難的部分，早年深度學(xué)習(xí)的出現(xiàn)，其實就是為了防止梯度消失。

這個有點復(fù)雜，就是你的訓(xùn)練數(shù)據(jù)，沒有辦法幫助系統(tǒng)認識到，某個地方應(yīng)該朝著局部最優(yōu)以外的地方走，它停在那里。得想辦法讓它走出去。

比如模型結(jié)構(gòu)變化、數(shù)據(jù)增多，模型表達能力提升，反正要想辦法給它一些prompt（提示），才可能跳出原來的局部最優(yōu)。訓(xùn)練過程中99%的時候都是負優(yōu)化，只有偶爾找到正確的路往前走。

36氪汽車：現(xiàn)在會有一些新的技術(shù)方案出來，可以避免負優(yōu)化嗎？

樓天城：很難，而且負優(yōu)化現(xiàn)在是越來越嚴重。隨著模型變深，參數(shù)更大，問題會越來越嚴重?；蛘哒f梯度優(yōu)化太小，模型就只在一個范圍不動了。

但反過來，這個東西更難了，解決問題的能力就是一個團隊能力的體現(xiàn)，聰明的腦袋可以又派上用場。我的觀點是，端到端其實拉開了不同能力團隊的差距。

36氪汽車：您怎么看特斯拉說下一代模型參數(shù)量擴大了5倍？

樓天城：特斯拉是個很優(yōu)秀的公司。我猜他的5倍指的是世界模型的參數(shù)擴大五倍，而不是FSD（特斯拉的全自動駕駛）的參數(shù)放大5倍，其他東西提5倍是沒有用的，因為天花板不在這邊。

談落地：遺憾Waymo不進中國，小馬遠比它好

36氪汽車：您會把Waymo和特斯拉的體驗做對比嗎？

樓天城：一個是極致的L4，一個是極致的L2。

36氪汽車：從技術(shù)或者商業(yè)運營來看，今天你們跟Waymo還有明顯區(qū)別嗎？

樓天城：我很遺憾它不能進中國，所以我很遺憾我不能向世界證明，其實小馬遠比它好，包括在安全性、體驗、市場效、成本這些方面。

36氪汽車：你們的L2與特斯拉的產(chǎn)品相比呢？

樓天城：我們在做車企的項目，但不能說名字。這事其實不用崇洋媚外，特斯拉進了中國，也不見得能比得過中國這幾家。

在創(chuàng)業(yè)之前，我在編程競賽圈，競賽圈有一個習(xí)慣，我們經(jīng)常會分享自己的解決思路，叫題解，競賽圈的人都是把題做出來了再寫題解，而不是還沒做出來的時候教別人怎么做。我說我做到，來給大家說怎么做到的，沒做到的人請做到再說。

36氪汽車：Robotaxi大規(guī)模商業(yè)化，需要等到世界模型出現(xiàn)之后再到來嗎？

樓天城：這個可能跟端到端都沒有關(guān)系，或者端到端有幫助但不是最直接的決定。L4的量產(chǎn)跟成本、運營、政策這些都有關(guān)系，如果有世界模型可能會讓成本進一步下降，會更好。

一些L2的說法，我不太認同的根本原因是，今天L4已經(jīng)到了沒有技術(shù)blocker的狀態(tài)了。當(dāng)大家技術(shù)都沒做到的時候，可能說有個做法將來更好；但當(dāng)技術(shù)已經(jīng)做到的時候，我們考慮的是真正商業(yè)化，你們還沒做到的話，我不會再等幾年了。

36氪汽車：Robotaxi的量產(chǎn)現(xiàn)在卡在哪里了？

樓天城：所有的車輛量產(chǎn)都需要時間，僅此而已。

36氪汽車：預(yù)計一年內(nèi)做到什么樣的規(guī)模？你會對什么樣的節(jié)點比較滿意？

樓天城：1年30倍，這是車企標準的車輛數(shù)量增長的速度。路上跑幾萬輛車，我覺得還比較滿意。

36氪汽車：現(xiàn)在Robotaxi的技術(shù)已經(jīng)達到你的理想狀態(tài)了嗎？

樓天城：技術(shù)本身是過半的，覺得其他方面還要再努力。量產(chǎn)我們正在做，今年我們和豐田成立了合資公司，他教我們怎么量產(chǎn)、成本控制，和運營。技術(shù)上也還有改進的空間，但它已經(jīng)過半了。

36氪汽車：過半是指什么水平？

樓天城：好于人類駕駛10倍以上。

36氪汽車：那終極目標是什么水平？

樓天城：我覺得需要接近駕駛的極限，但極限不是無窮大，極限可能是幾十萬公里才被撞一次，因為我不撞人，別人也可能會撞我。

36氪汽車：現(xiàn)在自動駕駛似乎變成了耐力賽，量產(chǎn)智駕公司有數(shù)據(jù)閉環(huán)作為養(yǎng)料，像Waymo和小馬這種技術(shù)公司怎么保證耐力不斷？

樓天城：Waymo有Google的支持，嚴格講這不是它擔(dān)心的問題，但問小馬很合適。所以量產(chǎn)對我們來說有很重要的意義，一年上多少量不是說有多少實際盈利，而是保證整個公司進入了正反饋節(jié)奏。

車輛規(guī)模越大，就能夠支撐研發(fā)、支撐車輛規(guī)模增加，公司也快達到這個狀態(tài)了，時間上就是今明兩年。

36氪汽車：有更具體的指標嗎？比如現(xiàn)金流為正之類的？

樓天城：比如單車盈利至少為正，百度蘿卜快跑也提到這個概念，單車為正已經(jīng)是很大的milestone，只要車量上去，就能把研發(fā)的錢填過來。今天很多新勢力其實也還沒有達到單車盈利轉(zhuǎn)正。

當(dāng)然，從長期發(fā)展來看，公司研發(fā)才是真正關(guān)鍵優(yōu)勢體現(xiàn)，我并沒有覺得非要這么急，讓整個公司盈利回正，這是一種平衡關(guān)系，不是一個商業(yè)化成熟的關(guān)系。我們明年會達到單車層面盈利回正，這是我們期待的。

談AI：人也是AI，沒有本質(zhì)不同

36氪汽車：近年來AI領(lǐng)域迸發(fā)的技術(shù)特別多，像pony這種技術(shù)公司，怎么判定要不要把技術(shù)拿到車上用？

樓天城：關(guān)注最新技術(shù)是公司很重要的事，所以基本上技術(shù)被媒體或大眾朋友關(guān)注到的時候，我們其實早就已經(jīng)研究過，甚至已經(jīng)在用了。

我對AI天花板看得很高，我覺得Robotaxi是AI第一個最大的應(yīng)用，后面AI應(yīng)用絕不局限在此，還有更高更顛覆的發(fā)展空間，肯定要積極擁抱。

站在人類的角度，人們更容易接受AI作為輔助幫助人類，但AI的真正意義價值遠不止，人要思考怎么跟技術(shù)配合，人如何在新的AI環(huán)境中主導(dǎo)事情，不要逃避。

36氪汽車：下一個大的AI賽道會屬于哪一塊？

樓天城：最近資本圈火的市場很明顯，首先chatbot就很火，還有“地上無人，天上也無人”也很火。通過很多技術(shù)，短期讓人看到AI的能力，這個是很好的起點。

拿chatbot來說，平時它他幫我寫點東西。很多行業(yè)大家的AI起點找得很好，但AI的天花板可能不能被起點的形式所限制。AI可能會顛覆人的很多創(chuàng)新，甚至人的很多職業(yè)，這是真正有價值的地方。

36氪汽車：聽說內(nèi)部有個AI team，近期哪些技術(shù)會讓你感到比較興奮？

樓天城：像仿真、類似Sora視頻生成的技術(shù)我們還是很感興趣。因為車的傳感器數(shù)據(jù)本身還是很多的，生成模型其實也很多年沒有這么長足的進步了。

像Sora這種虛擬現(xiàn)實是很可怕的，它在一定程度上顛覆了人類能區(qū)不能區(qū)分是虛擬現(xiàn)實的點，你甚至都看不出來它是不是虛擬現(xiàn)實的東西。

36氪汽車：這種技術(shù)競爭似乎面向更廣泛AI行業(yè)？小馬會想往機器人發(fā)展嗎？

樓天城：我們會先把自動駕駛做好，顯然AI技術(shù)在很多相關(guān)領(lǐng)域都有應(yīng)用，但自動駕駛模式更成熟，是大家更能接受、有真實需求的方式，它可能應(yīng)該是所有AI應(yīng)用中最容易落地的。

所有的人最后都會遇到同樣的問題，如果我這塊沒有走通，很難讓其他資源方支持我，反過來說這塊走通了我有更多立場，要求更多支持。

36氪汽車：對于AI展現(xiàn)出來的高水平，你發(fā)現(xiàn)教不會它更好的東西時，是什么樣的感受？

樓天城：我個人目標驅(qū)動這一點還是抓得很準，我們要把它做好，方法不同就不同，我不會對一個方法上有太大的堅持?；氐?019年，當(dāng)時我還強調(diào)我們一年采集了多少實驗數(shù)據(jù)，在那之前我一直說數(shù)據(jù)多好，現(xiàn)在我就不說了。就是突然有一天發(fā)現(xiàn)，其實不是這樣的，但這種東西只能意會，自己明白了才明白。

36氪汽車：所以2019年，你發(fā)現(xiàn)AI的發(fā)展超過了你的預(yù)期？

樓天城：最近幾年尤其超過預(yù)期。

人也是AI。別覺得自己跟他們有本質(zhì)不同，一個新的AI agent做的一些事情跟人相比，有些地方平分秋色，甚至平級，甚至比你高，在公司也是這樣，要來找比自己更牛的人來加入公司，給他們展示空間，這才是公司CTO該做的事情。

36氪汽車：公眾會對AI的到來有一種恐慌認知。

樓天城：恐慌沒有用，它一定會來，應(yīng)該好好思考如何跟AI在一起以更好方式去駕馭它。恐慌可能世界上最沒用的東西，沒有問題是靠恐慌解決的。