AI大家說 | 自動駕駛、人形機器人、數(shù)據(jù)瓶頸 OpenAI 創(chuàng)始成員談未來

2024-9-26 08:30| 發(fā)布者: admin| 查看: 150| 評論: 0

摘要: 近日，OpenAI的早期成員和著名AI研究者Andrej Karpathy在No Priors播客中現(xiàn)身，暢聊了他對AI現(xiàn)狀與未來發(fā)展，以及自動駕駛、人形機器人等行業(yè)的預(yù)判。訪談涵蓋了廣泛的主題，從自動駕駛技術(shù)的現(xiàn)狀和未來，到AI研究的 ...

近日，OpenAI的早期成員和著名AI研究者Andrej Karpathy在No Priors播客中現(xiàn)身，暢聊了他對AI現(xiàn)狀與未來發(fā)展，以及自動駕駛、人形機器人等行業(yè)的預(yù)判。

訪談涵蓋了廣泛的主題，從自動駕駛技術(shù)的現(xiàn)狀和未來，到AI研究的最新進展；從大語言模型的發(fā)展?jié)摿Γ紸I在教育領(lǐng)域的革命性應(yīng)用；從人機融合的可能性，到AI對人類認知和學(xué)習(xí)方式的深遠影響。Karpathy憑借其在OpenAI、特斯拉等頂尖科技公司的豐富經(jīng)驗，輸出了獨特而深刻的見解。

Karpathy在訪談中強調(diào)，AI不應(yīng)該是取代人類，而是應(yīng)該成為賦能人類的工具。他深入探討了AI研究的技術(shù)細節(jié)，包括Transformer架構(gòu)的重要性、合成數(shù)據(jù)的潛力與挑戰(zhàn)、小型高效模型的發(fā)展前景等。本期「AI大家說」精選了本次訪談中Karpathy的觀點。

AI大家說 | 自動駕駛、人形機器人、數(shù)據(jù)瓶頸 OpenAI 創(chuàng)始成員談未來

來源：No Priors

01 自動駕駛與人形機器人

Q：人形機器人的第一個落地場景是什么？

Karpathy：很多人可能會想著讓機器人去洗衣服、做家務(wù)什么的，但我覺得那會很晚才實現(xiàn)。我不認為B2C是個好起點。

我認為最好的第一批客戶就是公司自己。可以先在工廠里使用它，比如做一些物料搬運的工作。你可以自己先孵化它，然后第二步再去做B2B。你可以去那些有大型倉庫的公司，幫他們處理物料、簽合同、設(shè)置圍欄，做所有這些事情。等你在多家公司驗證過后，我覺得那時才能開始進入B2C應(yīng)用領(lǐng)域。我相信未來我們會看到B2C的機器人出現(xiàn)，比如像宇樹科技推出的產(chǎn)品?？赡苓€會有一些人在這些平臺上建立一個生態(tài)系統(tǒng)?？傊?，最初肯定還是會涉及大量的物料搬運，逐步向更具體的應(yīng)用發(fā)展。

Q：你如何看待現(xiàn)在自動駕駛的能力發(fā)展路徑？

Karpathy：我曾在自動駕駛領(lǐng)域花了大約五年的時間。我覺得自動駕駛其實和AGI在某種層面上是相似的，而且我覺得我們在自動駕駛方面已經(jīng)觸及到了一點AGI——現(xiàn)在一些自動駕駛已經(jīng)可以做到帶你在某個城市里隨意地逛了。然而，它還沒有實現(xiàn)全球化。

最近自動駕駛有個趨勢，就是向端到端深度學(xué)習(xí)的轉(zhuǎn)化，用神經(jīng)網(wǎng)絡(luò)逐步取代整個系統(tǒng)棧。像這樣的端到端系統(tǒng)，在大約10年內(nèi)，可能就是一個完整的神經(jīng)網(wǎng)絡(luò)了。視頻流輸入神經(jīng)網(wǎng)絡(luò)，最后直接輸出控制指令。這種端到端駕駛，只是模仿人類的行為，用很少的監(jiān)督數(shù)據(jù)去訓(xùn)練一個龐大的神經(jīng)網(wǎng)絡(luò)。對于幾億個參數(shù)來說，這種信號太少了。所以，這些中間層表征可以幫助開發(fā)各種特征和檢測器，讓端到端部分變得更容易。

Q：人形機器人有什么是可以轉(zhuǎn)移到自動駕駛的嗎？

Karpathy：其實，我覺得車在自動駕駛中基本上就是個機器人。很多人認為特斯拉只是一家汽車公司，但它其實是一家大規(guī)模的機器人公司。規(guī)?；旧硪彩且粋€完全不同的變量。他們不是在造單一的產(chǎn)品，而是在造可以制造產(chǎn)品的機器，這完全是兩回事。從汽車到人形機器人的轉(zhuǎn)變其實沒那么難。早期版本的Optimus機器人甚至以為自己是輛車，因為它用的電腦和攝像頭跟車完全一樣。特別有趣的是，我們在機器人上運行的是汽車的算法，而它卻在辦公室里四處移動，試圖識別可駕駛的空間，但實際上它面對的是步行空間。雖然有些細微的調(diào)整需要做，但基本上，它在開車的環(huán)境里運行，實際上只是在行走。

雖然目前會缺少數(shù)據(jù)，但其實在智能方面，有很多可以轉(zhuǎn)移的東西。不僅是具體的神經(jīng)網(wǎng)絡(luò)，還包括整個方法論、團隊，以及所有的協(xié)調(diào)和大家使用的方法。

Q：你認為相對于未來，現(xiàn)在的機器人技術(shù)里缺少了什么關(guān)鍵技術(shù)？

Karpathy：在人形機器人這種形態(tài)中，下半身的控制可能不太適合通過示范來進行模仿學(xué)習(xí)。因為下半身涉及很多像倒立擺控制這樣復(fù)雜的力學(xué)問題。而對于上半身，我覺得可能需要更多的遠程操作、數(shù)據(jù)收集和端到端的處理。

02 AI的現(xiàn)在與未來

Q：你怎么看待數(shù)據(jù)壁壘以及規(guī)模進一步發(fā)展的成本問題？

Karpathy：首先我不認為神經(jīng)網(wǎng)絡(luò)架構(gòu)在從根本上限制我們了。以前Transformer是一種瓶頸，但現(xiàn)在它已經(jīng)不再是瓶頸了?，F(xiàn)在我們更多地在討論的是：使用什么是損失函數(shù)？數(shù)據(jù)集在哪里？這些問題幾乎成為了瓶頸。

這不再是一個基于你想要它變成什么而重新配置的通用組織。這就是為什么許多研究已經(jīng)轉(zhuǎn)移到了這個領(lǐng)域。很多公司和其他應(yīng)用這種技術(shù)的企業(yè)不再怎么考慮Transformer的架構(gòu)創(chuàng)新了——它在過去五年里沒有太多革命性的變化，大家現(xiàn)在已經(jīng)把它視為理所當然，直接使用并進行訓(xùn)練?，F(xiàn)在，大部分的創(chuàng)新都集中在數(shù)據(jù)集和功能細節(jié)的優(yōu)化上。這是目前行業(yè)內(nèi)活躍的討論和改進領(lǐng)域。

現(xiàn)在，很多工作都在語言模型（LMS）上進行。而互聯(lián)網(wǎng)數(shù)據(jù)并不是我們理想中的Transformer訓(xùn)練數(shù)據(jù)。我們真正想要的，是更接近人類大腦中的“內(nèi)心獨白”那種數(shù)據(jù)——當你在解決問題時，你的大腦會產(chǎn)生一系列思維軌跡。如果我們能得到上億條這樣的數(shù)據(jù)，類似于AGI的想法，那我們就能取得很大進展。但目前我們還沒有達到這個水平。

所以，現(xiàn)在很多工作都圍繞著互聯(lián)網(wǎng)數(shù)據(jù)展開。這些數(shù)據(jù)雖然不是完美的，但已經(jīng)非常接近，因為互聯(lián)網(wǎng)上有足夠的推理痕跡和豐富的知識，而Transformer的作用就是讓這些數(shù)據(jù)得以有效利用。

我認為，接下來很多工作將聚焦于如何將數(shù)據(jù)集重構(gòu)為更類似于“內(nèi)心獨白”的格式。合成數(shù)據(jù)的生成在這方面能提供很大幫助。

有趣的是，當前的模型在很大程度上幫助我們構(gòu)建下一代模型。它就像在攀登樓梯，一步步向前推進。

Q：你認為合成數(shù)據(jù)有多大用處，或者說能帶我們走多遠？

Karpathy：我認為合成數(shù)據(jù)的確是我們進步的關(guān)鍵之一，但一個常見的問題是，模型在生成內(nèi)容時可能出現(xiàn)“坍塌”現(xiàn)象，輸出變得單一。

比如，讓ChatGPT講笑話時，它可能只會重復(fù)三四個笑話，缺乏足夠的變化。這種“熵”降低現(xiàn)象表現(xiàn)在單個結(jié)果上并不明顯，但從整體來看，模型的輸出會失去多樣性和豐富性。

如果你沒有保持這種數(shù)據(jù)的隨機性和多樣性，你就會得到一個貧瘠的數(shù)據(jù)集，失去了原有的活力。這種問題在表面上不易察覺，但實際上它會極大影響模型的性能。因此，在生成合成數(shù)據(jù)時，你必須非常小心，確保數(shù)據(jù)集中保留足夠的熵。

Q：你認為我們從這項研究中對人類認知了解了什么？

Karpathy：總體而言，這兩者還是有很大差異的，但確實有一些相似之處。例如，在很多方面Transformer比人腦更高效。它們之所以還不如人腦，主要是因為數(shù)據(jù)問題——這算是一個大概的解釋。

比如，Transformer在記憶序列方面比人類強多了。你給它一個序列，它可以在前后進行操作，記住并完成整個序列。而人類，只看一遍是記不住的。

所以在某些方面，像Transformer這樣的模型，尤其是在梯度優(yōu)化上，可能比大腦還要有效。盡管它們還不完美，但在很多認知任務(wù)上，我認為它們有很大的潛力。

我覺得人類大腦有很多限制。我們的工作記憶非常小，而Transformers的工作記憶要大得多，并且這種差距會持續(xù)擴大。它們是更高效的學(xué)習(xí)者。大腦在各種限制下工作，比如不清楚大腦是否使用反向傳播，也不知道那會如何運行。大腦是一個非常隨機、動態(tài)的系統(tǒng)，受環(huán)境和其他因素的制約。所以，我認為我們現(xiàn)在的技術(shù)，潛力上比大腦更強，只是還沒完全到達那個水平。

Q：未來隨著時間推移，人類會怎么樣和AI系統(tǒng)結(jié)合？

Karpathy：我們其實已經(jīng)在某種程度上融合了。問題在于輸入輸出的瓶頸。但大多數(shù)情況下，如果你擁有這些模型中的任何一個，你已經(jīng)在使用它們了?；蛟S未來，通過某種形式的融合可以解決未來與AI或其他系統(tǒng)的潛在沖突。我覺得這有點像大腦的外層皮質(zhì)。我們是在新皮層上繼續(xù)構(gòu)建。只是這次，它是在云端，而不是在我們頭腦里，但本質(zhì)上，它是大腦的下一層。

Q：你認為未來的模型會是什么樣的？

Karpathy：我覺得模型可以小到讓你意想不到?，F(xiàn)在的模型浪費了很多容量在記住一些不重要的東西上，這是因為我們用的數(shù)據(jù)集沒有整理得很好。我認為這種情況會改進的。我們需要做的是找到認知的核心部分，我相信這個核心可以非常小。它只需要能思考，如果需要查找信息，它知道怎么用不同的工具來獲取。

我覺得10億參數(shù)就夠了。我們有可能做到這一點。模型可以做得非常小。這是因為蒸餾技術(shù)很有效。蒸餾就是用一個大模型或者大量的計算資源去訓(xùn)練一個小模型，你可以把很多功能壓縮到一個小模型里。

也許這個未來不是一個單一的模型，可能是并行的一組模型。你能從并行處理的優(yōu)勢中獲益。我覺得公司在某種程度上也應(yīng)該強調(diào)工作中的并行化。不過，公司存在的層級結(jié)構(gòu)是為了有效地組織信息。

所以，我認為未來大模型的工作模式會像一個「大模型公司」。你會有各種不同能力、專注于獨特領(lǐng)域的模型。這將類似于公司中的不同角色，比如程序員和項目經(jīng)理，他們并行工作并進行協(xié)同計算。模型們會形成一個生態(tài)系統(tǒng)，里面有專門的角色和生態(tài)位。問題會根據(jù)難度自動上升到不同部分。

因此，也許CEO就像一個非常聰明的云模型，甚至可能是開源模型或其他類型的模型。這種方式可能會很有趣。

Q：你離開了OpenAI，開始從事教育工作。為什么會做出這樣的決定呢？

Karpathy：我覺得現(xiàn)在AI領(lǐng)域有很多活動，很多都是想取代或替代人類的，這讓我感覺有點像把人排除在外了。

我更關(guān)心的是如何通過AI協(xié)助人類。我不希望未來人們只是被自動化取代，我希望人們能夠變得更強，更出色，比現(xiàn)在更好。如果一個人有一個完美的全科導(dǎo)師，他們能走多遠呢？但如果人們能有一個完美的學(xué)習(xí)安排，他們可以走得非常遠。我們看到一些有錢人大概率有私人導(dǎo)師，他們的確取得了很大的成就。所以我希望通過AI，達到接近這種效果。

我覺得學(xué)習(xí)就像去健身房一樣，是對大腦的鍛煉。去健身房本身是很有趣的，雖然需要努力，但也有很大的回報。你在各方面都能感覺更好。我認為教育也應(yīng)該有這種感覺。所以當我說教育不應(yīng)該只是有趣的時候，我指的是它應(yīng)該有挑戰(zhàn)性，也應(yīng)該帶來一種特別的樂趣。在一個后AGI的世界里，我希望人們能像去健身房一樣經(jīng)常去「學(xué)習(xí)」，不僅是身體上的鍛煉，還有精神上的。這是我們所向往的目標，高教育水平就是這種理想的體現(xiàn)。