AI“模型崩潰”風(fēng)險(xiǎn)需警惕

2024-9-27 10:21| 發(fā)布者: admin| 查看: 274| 評(píng)論: 0

摘要: 來(lái)源：科技日?qǐng)?bào) AI“模型崩潰”風(fēng)險(xiǎn)需警惕圖片來(lái)源：美國(guó)《The Week》【今日視點(diǎn)】◎記者張佳欣從客戶(hù)服務(wù)到內(nèi)容創(chuàng)作，人工智能（AI）影響了眾多領(lǐng)域的進(jìn)展。但是，一個(gè)日益嚴(yán)重的被稱(chēng)為“模型崩潰”的問(wèn)題，可能會(huì) ...

來(lái)源：科技日?qǐng)?bào)

AI“模型崩潰”風(fēng)險(xiǎn)需警惕

圖片來(lái)源：美國(guó)《The Week》

【今日視點(diǎn)】

◎記者張佳欣

從客戶(hù)服務(wù)到內(nèi)容創(chuàng)作，人工智能（AI）影響了眾多領(lǐng)域的進(jìn)展。但是，一個(gè)日益嚴(yán)重的被稱(chēng)為“模型崩潰”的問(wèn)題，可能會(huì)使AI的所有成就功虧一簣。

“模型崩潰”是今年7月發(fā)表在英國(guó)《自然》雜志上的一篇研究論文指出的問(wèn)題。它是指用AI生成的數(shù)據(jù)集訓(xùn)練未來(lái)幾代機(jī)器學(xué)習(xí)模型，可能會(huì)嚴(yán)重“污染”它們的輸出。

多家外媒報(bào)道稱(chēng)，這不僅是數(shù)據(jù)科學(xué)家需要擔(dān)心的技術(shù)問(wèn)題，如果不加控制，“模型崩潰”可能會(huì)對(duì)企業(yè)、技術(shù)和整個(gè)數(shù)字生態(tài)系統(tǒng)產(chǎn)生深遠(yuǎn)影響。天津大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室負(fù)責(zé)人熊德意教授在接受科技日?qǐng)?bào)記者采訪時(shí)，從專(zhuān)業(yè)角度對(duì)“模型崩潰”進(jìn)行了解讀。

“模型崩潰”是怎么回事

大多數(shù)AI模型，比如GPT-4，都是通過(guò)大量數(shù)據(jù)進(jìn)行訓(xùn)練的，其中大部分?jǐn)?shù)據(jù)來(lái)自互聯(lián)網(wǎng)。最初，這些數(shù)據(jù)是由人類(lèi)生成的，反映了人類(lèi)語(yǔ)言、行為和文化的多樣性和復(fù)雜性。AI從這些數(shù)據(jù)中學(xué)習(xí)，并用它來(lái)生成新內(nèi)容。

然而，當(dāng)AI在網(wǎng)絡(luò)上搜索新數(shù)據(jù)來(lái)訓(xùn)練下一代模型時(shí)，AI很可能會(huì)吸收一些自己生成的內(nèi)容，從而形成反饋循環(huán)，其中一個(gè)AI的輸出成為另一個(gè)AI的輸入。當(dāng)生成式AI用自己的內(nèi)容進(jìn)行訓(xùn)練時(shí)，其輸出也會(huì)偏離現(xiàn)實(shí)。這就像多次復(fù)制一份文件，每個(gè)版本都會(huì)丟失一些原始細(xì)節(jié)，最終得到的是一個(gè)模糊的、不那么準(zhǔn)確的結(jié)果。

美國(guó)《紐約時(shí)報(bào)》報(bào)道稱(chēng)，當(dāng)AI脫離人類(lèi)輸入內(nèi)容時(shí)，其輸出的質(zhì)量和多樣性會(huì)下降。

熊德意解讀稱(chēng)：“真實(shí)的人類(lèi)語(yǔ)言數(shù)據(jù)，其分布通常符合齊普夫定律，即詞頻與詞的排序成反比關(guān)系。齊普夫定律揭示了人類(lèi)語(yǔ)言數(shù)據(jù)存在長(zhǎng)尾現(xiàn)象，即存在大量的低頻且多樣化的內(nèi)容。”

熊德意進(jìn)一步解釋道，由于存在近似采樣等錯(cuò)誤，在模型生成的數(shù)據(jù)中，真實(shí)分布的長(zhǎng)尾現(xiàn)象逐漸消失，模型生成數(shù)據(jù)的分布逐漸收斂至與真實(shí)分布不一致的分布，多樣性降低，導(dǎo)致“模型崩潰”。

AI自我“蠶食”是壞事嗎

對(duì)于“模型崩潰”，美國(guó)《The Week》雜志近日刊文評(píng)論稱(chēng)，這意味著AI正在自我“蠶食”。

熊德意認(rèn)為，伴隨著這一現(xiàn)象的出現(xiàn)，模型生成數(shù)據(jù)在后續(xù)模型迭代訓(xùn)練中占比越高，后續(xù)模型丟失真實(shí)數(shù)據(jù)的信息就會(huì)越多，模型訓(xùn)練就更加困難。

乍一看，“模型崩潰”在當(dāng)前似乎還是一個(gè)僅需要AI研究人員在實(shí)驗(yàn)室中擔(dān)心的小眾問(wèn)題，但其影響將是深遠(yuǎn)而長(zhǎng)久的。

美國(guó)《大西洋月刊》刊文指出，為了開(kāi)發(fā)更先進(jìn)的AI產(chǎn)品，科技巨頭可能不得不向程序提供合成數(shù)據(jù)，即AI系統(tǒng)生成的模擬數(shù)據(jù)。然而，由于一些生成式AI的輸出充斥著偏見(jiàn)、虛假信息和荒謬內(nèi)容，這些會(huì)傳遞到AI模型的下一版本中。

美國(guó)《福布斯》雜志報(bào)道稱(chēng)，“模型崩潰”還可能會(huì)加劇AI中的偏見(jiàn)和不平等問(wèn)題。

不過(guò)，這并不意味著所有合成數(shù)據(jù)都是不好的?！都~約時(shí)報(bào)》表示，在某些情況下，合成數(shù)據(jù)可以幫助AI學(xué)習(xí)。例如，當(dāng)使用大型AI模型的輸出訓(xùn)練較小的模型時(shí)，或者當(dāng)可以驗(yàn)證正確答案時(shí)，比如數(shù)學(xué)問(wèn)題的解決方案或國(guó)際象棋、圍棋等游戲的最佳策略。

AI正在占領(lǐng)互聯(lián)網(wǎng)嗎

訓(xùn)練新AI模型的問(wèn)題可能凸顯出一個(gè)更大的挑戰(zhàn)。《科學(xué)美國(guó)人》雜志表示，AI內(nèi)容正在占領(lǐng)互聯(lián)網(wǎng)，大型語(yǔ)言模型生成的文本正充斥著數(shù)百個(gè)網(wǎng)站。與人工創(chuàng)作的內(nèi)容相比，AI內(nèi)容的創(chuàng)作速度更快，數(shù)量也更大。

OpenAI首席執(zhí)行官薩姆·奧特曼今年2月曾表示，該公司每天生成約1000億個(gè)單詞，相當(dāng)于100萬(wàn)本小說(shuō)的文本，其中有一大部分會(huì)流入互聯(lián)網(wǎng)。

互聯(lián)網(wǎng)上大量的AI內(nèi)容，包括機(jī)器人發(fā)布的推文、荒謬的圖片和虛假評(píng)論，引發(fā)了一種更為消極的觀念?！陡２妓埂冯s志稱(chēng)，“死亡互聯(lián)網(wǎng)理論”認(rèn)為，互聯(lián)網(wǎng)上的大部分流量、帖子和用戶(hù)都已被機(jī)器人和AI生成的內(nèi)容所取代，人類(lèi)不再能決定互聯(lián)網(wǎng)的方向。這一觀念最初只在網(wǎng)絡(luò)論壇上流傳，但最近卻獲得了更多關(guān)注。

幸運(yùn)的是，專(zhuān)家們表示，“死亡互聯(lián)網(wǎng)理論”尚未成為現(xiàn)實(shí)。《福布斯》雜志指出，絕大多數(shù)廣為流傳的帖子，包括一些深刻的觀點(diǎn)、犀利的語(yǔ)言、敏銳的觀察，以及在新背景下對(duì)新生事物的定義等內(nèi)容，都不是AI生成的。

不過(guò)，熊德意仍強(qiáng)調(diào)：“隨著大模型的廣泛應(yīng)用，AI合成數(shù)據(jù)在互聯(lián)網(wǎng)數(shù)據(jù)中的占比可能會(huì)越來(lái)越高，大量低質(zhì)量的AI合成數(shù)據(jù)，不僅會(huì)使后續(xù)采用互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練的模型出現(xiàn)一定程度的‘模型崩潰’，而且也會(huì)對(duì)社會(huì)形成負(fù)面影響，比如生成的錯(cuò)誤信息對(duì)部分人群形成誤導(dǎo)等。因此，AI生成內(nèi)容不僅是一個(gè)技術(shù)問(wèn)題，同時(shí)也是社會(huì)問(wèn)題，需要從安全治理與AI技術(shù)雙重角度進(jìn)行有效應(yīng)對(duì)?！?br>