近日,OpenAI的早期成員和著名AI研究者Andrej Karpathy在No Priors播客中現(xiàn)身,暢聊了他對AI現(xiàn)狀與未來發(fā)展,以及自動駕駛、人形機器人等行業(yè)的預(yù)判。 訪談涵蓋了廣泛的主題,從自動駕駛技術(shù)的現(xiàn)狀和未來,到AI研究的最新進展;從大語言模型的發(fā)展?jié)摿Γ紸I在教育領(lǐng)域的革命性應(yīng)用;從人機融合的可能性,到AI對人類認知和學(xué)習(xí)方式的深遠影響。Karpathy憑借其在OpenAI、特斯拉等頂尖科技公司的豐富經(jīng)驗,輸出了獨特而深刻的見解。 Karpathy在訪談中強調(diào),AI不應(yīng)該是取代人類,而是應(yīng)該成為賦能人類的工具。他深入探討了AI研究的技術(shù)細節(jié),包括Transformer架構(gòu)的重要性、合成數(shù)據(jù)的潛力與挑戰(zhàn)、小型高效模型的發(fā)展前景等。本期「AI大家說」精選了本次訪談中Karpathy的觀點。 來源:No Priors 01 自動駕駛與人形機器人 Q:人形機器人的第一個落地場景是什么? Karpathy:很多人可能會想著讓機器人去洗衣服、做家務(wù)什么的,但我覺得那會很晚才實現(xiàn)。我不認為B2C是個好起點。 我認為最好的第一批客戶就是公司自己。可以先在工廠里使用它,比如做一些物料搬運的工作。你可以自己先孵化它,然后第二步再去做B2B。你可以去那些有大型倉庫的公司,幫他們處理物料、簽合同、設(shè)置圍欄,做所有這些事情。等你在多家公司驗證過后,我覺得那時才能開始進入B2C應(yīng)用領(lǐng)域。我相信未來我們會看到B2C的機器人出現(xiàn),比如像宇樹科技推出的產(chǎn)品??赡苓€會有一些人在這些平臺上建立一個生態(tài)系統(tǒng)??傊?,最初肯定還是會涉及大量的物料搬運,逐步向更具體的應(yīng)用發(fā)展。 Q:你如何看待現(xiàn)在自動駕駛的能力發(fā)展路徑? Karpathy:我曾在自動駕駛領(lǐng)域花了大約五年的時間。我覺得自動駕駛其實和AGI在某種層面上是相似的,而且我覺得我們在自動駕駛方面已經(jīng)觸及到了一點AGI——現(xiàn)在一些自動駕駛已經(jīng)可以做到帶你在某個城市里隨意地逛了。然而,它還沒有實現(xiàn)全球化。 最近自動駕駛有個趨勢,就是向端到端深度學(xué)習(xí)的轉(zhuǎn)化,用神經(jīng)網(wǎng)絡(luò)逐步取代整個系統(tǒng)棧。像這樣的端到端系統(tǒng),在大約10年內(nèi),可能就是一個完整的神經(jīng)網(wǎng)絡(luò)了。視頻流輸入神經(jīng)網(wǎng)絡(luò),最后直接輸出控制指令。這種端到端駕駛,只是模仿人類的行為,用很少的監(jiān)督數(shù)據(jù)去訓(xùn)練一個龐大的神經(jīng)網(wǎng)絡(luò)。對于幾億個參數(shù)來說,這種信號太少了。所以,這些中間層表征可以幫助開發(fā)各種特征和檢測器,讓端到端部分變得更容易。 Q:人形機器人有什么是可以轉(zhuǎn)移到自動駕駛的嗎? Karpathy:其實,我覺得車在自動駕駛中基本上就是個機器人。很多人認為特斯拉只是一家汽車公司,但它其實是一家大規(guī)模的機器人公司。規(guī)?;旧硪彩且粋€完全不同的變量。他們不是在造單一的產(chǎn)品,而是在造可以制造產(chǎn)品的機器,這完全是兩回事。從汽車到人形機器人的轉(zhuǎn)變其實沒那么難。早期版本的Optimus機器人甚至以為自己是輛車,因為它用的電腦和攝像頭跟車完全一樣。特別有趣的是,我們在機器人上運行的是汽車的算法,而它卻在辦公室里四處移動,試圖識別可駕駛的空間,但實際上它面對的是步行空間。雖然有些細微的調(diào)整需要做,但基本上,它在開車的環(huán)境里運行,實際上只是在行走。 雖然目前會缺少數(shù)據(jù),但其實在智能方面,有很多可以轉(zhuǎn)移的東西。不僅是具體的神經(jīng)網(wǎng)絡(luò),還包括整個方法論、團隊,以及所有的協(xié)調(diào)和大家使用的方法。 Q:你認為相對于未來,現(xiàn)在的機器人技術(shù)里缺少了什么關(guān)鍵技術(shù)? Karpathy:在人形機器人這種形態(tài)中,下半身的控制可能不太適合通過示范來進行模仿學(xué)習(xí)。因為下半身涉及很多像倒立擺控制這樣復(fù)雜的力學(xué)問題。而對于上半身,我覺得可能需要更多的遠程操作、數(shù)據(jù)收集和端到端的處理。 02 AI的現(xiàn)在與未來 Q:你怎么看待數(shù)據(jù)壁壘以及規(guī)模進一步發(fā)展的成本問題? Karpathy:首先我不認為神經(jīng)網(wǎng)絡(luò)架構(gòu)在從根本上限制我們了。以前Transformer是一種瓶頸,但現(xiàn)在它已經(jīng)不再是瓶頸了?,F(xiàn)在我們更多地在討論的是:使用什么是損失函數(shù)?數(shù)據(jù)集在哪里?這些問題幾乎成為了瓶頸。 這不再是一個基于你想要它變成什么而重新配置的通用組織。這就是為什么許多研究已經(jīng)轉(zhuǎn)移到了這個領(lǐng)域。很多公司和其他應(yīng)用這種技術(shù)的企業(yè)不再怎么考慮Transformer的架構(gòu)創(chuàng)新了——它在過去五年里沒有太多革命性的變化,大家現(xiàn)在已經(jīng)把它視為理所當然,直接使用并進行訓(xùn)練?,F(xiàn)在,大部分的創(chuàng)新都集中在數(shù)據(jù)集和功能細節(jié)的優(yōu)化上。這是目前行業(yè)內(nèi)活躍的討論和改進領(lǐng)域。 現(xiàn)在,很多工作都在語言模型(LMS)上進行。而互聯(lián)網(wǎng)數(shù)據(jù)并不是我們理想中的Transformer訓(xùn)練數(shù)據(jù)。我們真正想要的,是更接近人類大腦中的“內(nèi)心獨白”那種數(shù)據(jù)——當你在解決問題時,你的大腦會產(chǎn)生一系列思維軌跡。如果我們能得到上億條這樣的數(shù)據(jù),類似于AGI的想法,那我們就能取得很大進展。但目前我們還沒有達到這個水平。 所以,現(xiàn)在很多工作都圍繞著互聯(lián)網(wǎng)數(shù)據(jù)展開。這些數(shù)據(jù)雖然不是完美的,但已經(jīng)非常接近,因為互聯(lián)網(wǎng)上有足夠的推理痕跡和豐富的知識,而Transformer的作用就是讓這些數(shù)據(jù)得以有效利用。 我認為,接下來很多工作將聚焦于如何將數(shù)據(jù)集重構(gòu)為更類似于“內(nèi)心獨白”的格式。合成數(shù)據(jù)的生成在這方面能提供很大幫助。 有趣的是,當前的模型在很大程度上幫助我們構(gòu)建下一代模型。它就像在攀登樓梯,一步步向前推進。 Q:你認為合成數(shù)據(jù)有多大用處,或者說能帶我們走多遠? Karpathy:我認為合成數(shù)據(jù)的確是我們進步的關(guān)鍵之一,但一個常見的問題是,模型在生成內(nèi)容時可能出現(xiàn)“坍塌”現(xiàn)象,輸出變得單一。 比如,讓ChatGPT講笑話時,它可能只會重復(fù)三四個笑話,缺乏足夠的變化。這種“熵”降低現(xiàn)象表現(xiàn)在單個結(jié)果上并不明顯,但從整體來看,模型的輸出會失去多樣性和豐富性。 如果你沒有保持這種數(shù)據(jù)的隨機性和多樣性,你就會得到一個貧瘠的數(shù)據(jù)集,失去了原有的活力。這種問題在表面上不易察覺,但實際上它會極大影響模型的性能。因此,在生成合成數(shù)據(jù)時,你必須非常小心,確保數(shù)據(jù)集中保留足夠的熵。 Q:你認為我們從這項研究中對人類認知了解了什么? Karpathy:總體而言,這兩者還是有很大差異的,但確實有一些相似之處。例如,在很多方面Transformer比人腦更高效。它們之所以還不如人腦,主要是因為數(shù)據(jù)問題——這算是一個大概的解釋。 比如,Transformer在記憶序列方面比人類強多了。你給它一個序列,它可以在前后進行操作,記住并完成整個序列。而人類,只看一遍是記不住的。 所以在某些方面,像Transformer這樣的模型,尤其是在梯度優(yōu)化上,可能比大腦還要有效。盡管它們還不完美,但在很多認知任務(wù)上,我認為它們有很大的潛力。 我覺得人類大腦有很多限制。我們的工作記憶非常小,而Transformers的工作記憶要大得多,并且這種差距會持續(xù)擴大。它們是更高效的學(xué)習(xí)者。大腦在各種限制下工作,比如不清楚大腦是否使用反向傳播,也不知道那會如何運行。大腦是一個非常隨機、動態(tài)的系統(tǒng),受環(huán)境和其他因素的制約。所以,我認為我們現(xiàn)在的技術(shù),潛力上比大腦更強,只是還沒完全到達那個水平。 Q:未來隨著時間推移,人類會怎么樣和AI系統(tǒng)結(jié)合? Karpathy:我們其實已經(jīng)在某種程度上融合了。問題在于輸入輸出的瓶頸。但大多數(shù)情況下,如果你擁有這些模型中的任何一個,你已經(jīng)在使用它們了?;蛟S未來,通過某種形式的融合可以解決未來與AI或其他系統(tǒng)的潛在沖突。我覺得這有點像大腦的外層皮質(zhì)。我們是在新皮層上繼續(xù)構(gòu)建。只是這次,它是在云端,而不是在我們頭腦里,但本質(zhì)上,它是大腦的下一層。 Q:你認為未來的模型會是什么樣的? Karpathy:我覺得模型可以小到讓你意想不到?,F(xiàn)在的模型浪費了很多容量在記住一些不重要的東西上,這是因為我們用的數(shù)據(jù)集沒有整理得很好。我認為這種情況會改進的。我們需要做的是找到認知的核心部分,我相信這個核心可以非常小。它只需要能思考,如果需要查找信息,它知道怎么用不同的工具來獲取。 我覺得10億參數(shù)就夠了。我們有可能做到這一點。模型可以做得非常小。這是因為蒸餾技術(shù)很有效。蒸餾就是用一個大模型或者大量的計算資源去訓(xùn)練一個小模型,你可以把很多功能壓縮到一個小模型里。 也許這個未來不是一個單一的模型,可能是并行的一組模型。你能從并行處理的優(yōu)勢中獲益。我覺得公司在某種程度上也應(yīng)該強調(diào)工作中的并行化。不過,公司存在的層級結(jié)構(gòu)是為了有效地組織信息。 所以,我認為未來大模型的工作模式會像一個「大模型公司」。你會有各種不同能力、專注于獨特領(lǐng)域的模型。這將類似于公司中的不同角色,比如程序員和項目經(jīng)理,他們并行工作并進行協(xié)同計算。模型們會形成一個生態(tài)系統(tǒng),里面有專門的角色和生態(tài)位。問題會根據(jù)難度自動上升到不同部分。 因此,也許CEO就像一個非常聰明的云模型,甚至可能是開源模型或其他類型的模型。這種方式可能會很有趣。 Q: 你離開了OpenAI,開始從事教育工作。為什么會做出這樣的決定呢? Karpathy:我覺得現(xiàn)在AI領(lǐng)域有很多活動,很多都是想取代或替代人類的,這讓我感覺有點像把人排除在外了。 我更關(guān)心的是如何通過AI協(xié)助人類。我不希望未來人們只是被自動化取代,我希望人們能夠變得更強,更出色,比現(xiàn)在更好。如果一個人有一個完美的全科導(dǎo)師,他們能走多遠呢?但如果人們能有一個完美的學(xué)習(xí)安排,他們可以走得非常遠。我們看到一些有錢人大概率有私人導(dǎo)師,他們的確取得了很大的成就。所以我希望通過AI,達到接近這種效果。 我覺得學(xué)習(xí)就像去健身房一樣,是對大腦的鍛煉。去健身房本身是很有趣的,雖然需要努力,但也有很大的回報。你在各方面都能感覺更好。我認為教育也應(yīng)該有這種感覺。所以當我說教育不應(yīng)該只是有趣的時候,我指的是它應(yīng)該有挑戰(zhàn)性,也應(yīng)該帶來一種特別的樂趣。在一個后AGI的世界里,我希望人們能像去健身房一樣經(jīng)常去「學(xué)習(xí)」,不僅是身體上的鍛煉,還有精神上的。這是我們所向往的目標,高教育水平就是這種理想的體現(xiàn)。 |
19款電子扎帶
電路板識別電子標簽