在近期一項(xiàng)研究中,意大利國際高等研究院(SISSA,International School for Advanced Studies)博士生耿明萌量化了 ChatGPT 對(duì)學(xué)術(shù)論文寫作的影響。 圖 | 耿明萌(來源:耿明萌) 日前,相關(guān)論文以《ChatGPT 正在改變學(xué)者的寫作風(fēng)格嗎?》(Is ChatGPT Transforming Academics’ Writing Style?)為題發(fā)在 arXiv[1]。 圖 | 相關(guān)論文(來源:arXiv) 據(jù)介紹,之前大多數(shù)同類研究,往往是分析某個(gè)段落或某篇文章由 ChatGPT 生成的可能性。但是,本次成果更加關(guān)注于整體情況。 舉例來說,一項(xiàng)成熟的運(yùn)動(dòng)不只需要優(yōu)秀的運(yùn)動(dòng)員,還需要球迷、教練、投資人、裁判等。 目前,大模型的火熱程度已經(jīng)無需贅述,這條賽道甚至顯得有些擁擠不堪。在這樣的背景之下,耿明萌想做一些類似足球裁判員和數(shù)據(jù)分析師的工作。 事實(shí)上,就在一年之前他還不是 ChatGPT 的擁躉,也不打算追逐大模型的研究熱潮。 2023 年夏,耿明萌把更早一篇論文的初稿提交給導(dǎo)師之后,導(dǎo)師并沒有直接在原文上修改,而是給出一些簡略的建議和批注,其中有不少建議針對(duì)的是寫作問題。 這時(shí),耿明萌想到使用 ChatGPT 來修改和潤色論文,但是很快他就意識(shí)到 ChatGPT 的風(fēng)格,比如其所使用的詞語頻率和人類有所不同。 于是,他想從詞頻角度出發(fā),來分析 ChatGPT 對(duì)于人類論文的影響。耿明萌導(dǎo)師的主業(yè)是天文和統(tǒng)計(jì),之前并沒有自然語言處理的經(jīng)驗(yàn)。 導(dǎo)師也很疑惑為何當(dāng)時(shí)仍未有人使用這么簡潔明了的方法來研究 ChatGPT 的影響,因此推測有可能是因?yàn)樾胁煌ㄋ圆艣]有人研究,于是暫時(shí)擱置了這個(gè)想法。 事情的轉(zhuǎn)機(jī)發(fā)生在 2023 年秋,當(dāng)時(shí)導(dǎo)師頻繁出差去宣傳自己出版的新書,并沒有時(shí)間討論課題組的項(xiàng)目。 于是,耿明萌決定騰出手自己試試看。 他記得特別清楚,在萬圣節(jié)假期的前一天晚上,在解決所有數(shù)據(jù)問題之后,他出去旅行了兩周,回來又花費(fèi)一周時(shí)間得到了初步結(jié)果。 即:學(xué)術(shù)論文中確實(shí)有一些詞語的使用頻率,在 ChatGPT 出現(xiàn)之后發(fā)生了明顯變化。 為了方便起見,耿明萌選取了當(dāng)時(shí) arXiv 上最新的 100 萬篇論文的摘要進(jìn)行分析。之所以這樣做是因?yàn)檎m然短小,但是比論文的其他部分更有代表性。 結(jié)果他發(fā)現(xiàn):最近幾年論文數(shù)量出現(xiàn)暴漲,比如從 2018 年到 2023 年,就有超過 100 萬篇論文被提交到 arXiv 上。其中,大約有 90% 論文來自于數(shù)學(xué)、物理和計(jì)算機(jī)三個(gè)學(xué)科。 當(dāng)然,初步的研究結(jié)果也很有意思:比如“significant”的詞頻翻了接近一番,而“is”和“are”的詞頻則減少了 10% 左右。 (來源:arXiv) 于是,耿明萌選取 2022 年 arXiv 上的前兩萬篇論文摘要,通過 ChatGPT API 加以修改和潤色,借此分析得到 ChatGPT 的詞語偏好。 由此發(fā)現(xiàn):2023 年 ChatGPT 修改論文前后的詞頻變化,和 2022 年的詞頻變化有著很大相關(guān)性。但是,2022 年相對(duì)于 2021 年,在詞語頻率變化上的相關(guān)性很小。 (來源:arXiv) 那么,如果使用 ChatGPT 處理一部分論文摘要,和未經(jīng) ChatGPT 處理的論文摘要混在一起,能否基于詞語頻率的變化,估算出經(jīng)過 ChatGPT 處理的論文摘要的比重?以及應(yīng)該怎樣估計(jì)?再就是應(yīng)該選取哪些詞語? 為了回答這些問題,耿明萌提出一個(gè)含有噪聲項(xiàng)的模型,證明在某些情況之下,詞語的選取并不是越多越好。 而是應(yīng)該主要考慮以下兩個(gè)標(biāo)準(zhǔn):詞語頻率、以及 ChatGPT 處理前后的變化率。 而且,對(duì)于不同類別和不同混合比例的摘要,選取的詞語也應(yīng)該有所變化。隨后,通過校準(zhǔn)和測試,上述理論分析也在模擬中得到了驗(yàn)證。 (來源:arXiv) 基于此,他開始根據(jù)真實(shí)的 arXiv 摘要數(shù)據(jù),來估算 ChatGPT 的影響。 這一分析是基于:ChatGPT API 的模擬輸出對(duì)于不同的 prompt,其輸出的結(jié)果也不相同,因此所得出的結(jié)果是一個(gè)相對(duì)值。 如果以“Revise the following sentences”的結(jié)果作為基準(zhǔn),ChatGPT 修改的“比例”大約在 35% 左右。 如果科研人員在使用 ChatGPT 時(shí)都能使用更精準(zhǔn)的 prompt,那么 ChatGPT 對(duì)于論文摘要的貢獻(xiàn)就完全有可能超過 100%。 不過,耿明萌更愿意用“影響”而非用“比例”來看待本次結(jié)果。 不同的 prompt 會(huì)產(chǎn)生不同的輸出,因而同樣的使用比例也會(huì)產(chǎn)生不同的估計(jì)結(jié)果??紤]到實(shí)際的使用場景,一些人很有可能在使用 ChatGPT 之后刻意抹去了一些痕跡。 亦有論文作者的寫作風(fēng)格的確受到了 ChatGPT 的影響,但最后并沒有使用 ChatGPT 潤色論文摘要。同時(shí),其它大模型可能會(huì)有相似、但不相同的詞頻。 (來源:arXiv) 總的來說,耿明萌依然認(rèn)為,使用 ChatGPT 或其它工具,來潤色論文和翻譯論文本身并沒有錯(cuò),但要知道修改前后語義上的差別。 對(duì)于母語非英語的研究人員來說,這些新工具的合理使用確實(shí)也能促進(jìn)公平,但直接利用這些工具生成論文段落是不可取的。 而研究 ChatGPT 對(duì)于論文風(fēng)格的影響,則能助力科研人員更好地使用類似工具。 參考資料: 1.https://arxiv.org/pdf/2404.08627 運(yùn)營/排版:何晨龍 |
19款電子扎帶
電路板識(shí)別電子標(biāo)簽