來源:環(huán)球網(wǎng) 美國(guó)《大西洋月刊》5月19日文章,原題:ChatGPT已經(jīng)過時(shí)了 人工智能正在經(jīng)歷一場(chǎng)無聲革命,這項(xiàng)技術(shù)不僅超越書面語言,融合多種媒體,更在朝著更崇高的目標(biāo)努力,即更全面透徹地理解世界。ChatGPT才6個(gè)月大,就已經(jīng)變得有些過時(shí)了。 ChatGPT正式發(fā)布App 蘋果iOS客戶端可進(jìn)行下載(IC photo) 這款程序及其“近親”,被稱為大型語言模型,通過統(tǒng)計(jì)學(xué)手段,預(yù)測(cè)、組成語句并予以表達(dá)。研究人員用更多文本訓(xùn)練這些程序,前提是認(rèn)為在不同配置下對(duì)機(jī)器進(jìn)行強(qiáng)制語料投喂可以提升預(yù)測(cè)能力和程序的智能水平。這種文本最大化的AI開發(fā)方法一直是過去幾年來的主流。 然而,類似初代ChatGPT的純語言模型正在退場(chǎng),取而代之的是可以處理圖像、音頻甚至感官數(shù)據(jù)的機(jī)器。這種新模式可能反映了人類對(duì)智能更人性化的理解,是模擬兒童通過觀察世界進(jìn)行學(xué)習(xí)的初步嘗試。企業(yè)也可以借此開發(fā)能力更全面的AI,進(jìn)而將其整合到更多產(chǎn)品中。除了GPT-4和Bard,許多程序也有各自開發(fā)的拓展功能。這些程序被稱為多模態(tài)模型——文本和圖像都是其中的模態(tài)——許多研究人員希望可以借其將AI提升到新高度。 理論上說,多模態(tài)方法可以解決純語言模型的核心難點(diǎn)——即使能流暢地串聯(lián)單詞,卻無法將其同概念、觀點(diǎn)、事物或活動(dòng)聯(lián)系起來。學(xué)習(xí)更多類型的數(shù)據(jù),能夠幫助AI模型對(duì)外部環(huán)境進(jìn)行想象和交互,進(jìn)行接近現(xiàn)實(shí)的輸出,甚至為了解決問題而捏造真相。如果模型了解世界,自行捏造事物的可能性就會(huì)減少。多模態(tài)模型的構(gòu)建并非是新鮮事物,但近幾年來,AI研究的幾項(xiàng)關(guān)鍵成果使得跨領(lǐng)域方法愈發(fā)可行。 這種變化也有其現(xiàn)實(shí)原因,因?yàn)椴徽摶ヂ?lián)網(wǎng)看起來多大,AI可以用于訓(xùn)練的文本數(shù)量都是有限的,其程序的規(guī)模和靈敏度,以及可應(yīng)用的計(jì)算能力,都要受到現(xiàn)實(shí)制約。相比于ChatGPT,多模態(tài)AI在理解世界和語言流暢層面的提升仍有待討論。許多程序都被證實(shí)存在一定程度的不足,但研究仍處于早期階段,未來幾年仍將不斷提升。 要想真正讓AI模擬人類的思維,我們還有很長(zhǎng)的路要走。增加投喂的文本數(shù)據(jù)無法解決AI模型的偏差和虛假問題,拓展投喂數(shù)據(jù)的類型也不一定會(huì)解決此類問題。如果程序吸納了有偏差的文本和圖像,其輸出仍然是有害的,而且傳播形式會(huì)更廣。相比只能處理語言的模型,多模態(tài)AI對(duì)某些特定操作可能更加敏感,例如對(duì)圖像關(guān)鍵像素的篡改。除了智能層面,多模態(tài)AI也是很好的商業(yè)命題。 |