今天凌晨,OpenAI 發(fā)布了最新的 GPT-4。 根據(jù)發(fā)布會(huì)披露的內(nèi)容來看,這個(gè)新一代比早先大家使用的 ChatGPT 的 GPT-3.5 內(nèi)核強(qiáng)悍了一大截,再次刷新了編輯部對 AI 的認(rèn)知。 首先,非常非常重要的一點(diǎn)是,GPT-4 可以接受文字以外的內(nèi)容輸入了,目前支持文字與圖像的混合輸入。 在官方的示例中,用戶給 GPT-4 上傳了一張梗圖,問 GPT-4 這張圖為什么好笑: GPT-4 非常詳細(xì)且精準(zhǔn)地描述出了圖片上的內(nèi)容。 并且有思維條理的解釋了,為什么這張圖會(huì)讓人覺得好笑。 這還不算完,就算是十分抽象的 Meme,它也能一本正經(jīng)地給你解釋笑點(diǎn)在哪里。 只不過么,GPT4 也還沒到能通過圖靈的程度。 當(dāng)然,這個(gè)功能并不只是能解釋梗圖那么簡單,它擁有無限的想象空間,比如: 在今天凌晨的官方直播視頻中,GTP 的開發(fā)人員演示了 GPT-4 可以識別他手繪的一張網(wǎng)頁草圖,并且根據(jù)草圖寫出網(wǎng)頁的前端代碼。 手繪的網(wǎng)頁草圖,非常抽象 ▼ GPT-4 給出的網(wǎng)頁以及代碼 ▼ 雖然這個(gè)示例里的網(wǎng)站非常簡單,但 GPT-4 的理解能力和創(chuàng)造力還是讓人覺得不可思議: 重要的不是它能不能做得很好,而是它能做到,這是一個(gè)質(zhì)的飛躍。 甚至,目前已經(jīng)有公司在搞這項(xiàng)技術(shù)的落地應(yīng)用,打算把它和導(dǎo)盲服務(wù)結(jié)合起來。 這樣一來,盲人只需要拍張照,GPT-4 就能立即復(fù)述出面前物品的信息。 而在文字問答方面,GPT-4 也有非常大的提升,輸入字增加到了 2.5 萬。 在專業(yè)領(lǐng)域上的回答,特別是 “ 問題復(fù)雜度足夠高的時(shí)候……GPT-4 比老版本更細(xì)、更可信、更富有創(chuàng)造力 ”。 比如,在統(tǒng)一律師考試( Uniform Bar Exam )中,GPT-4 可以超過 90% 的人類考生,而老版本只能超過 10% 的人類考生,妥妥學(xué)渣學(xué)霸的區(qū)別。 在 GRE 數(shù)學(xué)和語文 ( 閱讀與填空 )考試中 ,GPT-4 的考試成績已經(jīng)是哈佛、麻省理工、斯坦福大學(xué)生的水平了。 不僅自己回答問題能力變強(qiáng)了,GPT-4 還會(huì)人格扮演。 比如你提出一個(gè)問題,ChatGPT 只會(huì)機(jī)械式地回答,而 GPT-4 可以按你的要求以蘇格拉底風(fēng)格給你作答。 那這個(gè)玩法就多了呀。 向下滑動(dòng)▼ 不過,說了這么多,百聞不如一試。 即使已經(jīng)是凌晨 2 點(diǎn),編輯部依舊花重金( 20 美元/月 ),連夜讓美國同事幫忙升級試用了一波。 遺憾的是,OpenAI 考慮到用戶們搞幺蛾子的能力太狠,所以目前 GPT-4 的圖片輸入功能暫時(shí)不對公眾開放,也沒有說啥時(shí)候可以用上。 不過,我們還是可以試試它聰明的小腦瓜子。 先是給了一個(gè)全網(wǎng)瘋傳的“ 華為、阿里入職面試題 ”,挑戰(zhàn)大獲成功。 而隔壁的 ChatGPT 就有點(diǎn)拉了。 作為擊敗了 90% 人類的大律師,GPT-4 的推理能力應(yīng)該強(qiáng)無敵吧。 所以我們又搞了道法考的經(jīng)典案件,想掂量掂量 GPT-4 到底有幾斤幾兩。 問:乙去甲家吃飯,結(jié)果電動(dòng)車被偷了。于是乙準(zhǔn)備偷輛別人的電動(dòng)車,此時(shí),喝醉的甲來幫忙撬鎖,幫乙成功得手。結(jié)果調(diào)查后發(fā)現(xiàn),乙偷的是甲的電動(dòng)車,問甲算不算是盜竊罪? 雖然新舊兩款結(jié)論都是正確的,但是舊版的解題過程,就有點(diǎn)亂來了。。 而在一些更需要 “ 創(chuàng)造性 ” 或是 “ 思考 ” 的問題,比如: 關(guān)于最近一次特斯拉投資者大會(huì)上 “ 實(shí)現(xiàn)全球可持續(xù)能源 ” 的計(jì)劃,你覺得是可行的嗎?為什么可行? GPT-4 的表現(xiàn)就更讓人吃驚了。 雖然 GPT-4 的知識庫停留在 2021 年 9月,并沒有覆蓋半個(gè)月前的那場投資者大會(huì),但它卻神奇地未卜先知了。 而老版本 ChatGPT 的回答就遜色了很多,沒有條理,還有一堆車轱轆話,沒有建設(shè)性觀點(diǎn)。 隨后,我們又問了一個(gè)行業(yè)思考相關(guān)的問題: 你如何看待全球的碳排放戰(zhàn)略,它能成功嗎? 老版只能浮于表面籠統(tǒng)地給點(diǎn)泛泛的概念,而 GPT-4 的回答明顯維度更寬、思考更深,洋洋灑灑列了 10 點(diǎn),更加細(xì)致有條理,并且含有更多專業(yè)詞匯與內(nèi)容,可以說幾乎完美地回答了這個(gè)問題。 上面這些,還僅僅只是我們編輯部的試驗(yàn),在一些大佬們手上,GPT-4 令人恐懼的表現(xiàn)就更多了。 比如僅僅只用了 60 秒,就做出了一款 Pong 游戲,20 秒就能做出貪吃蛇游戲。 不可否認(rèn),GPT-4 比起舊版來說,強(qiáng)的不是一點(diǎn)半點(diǎn)。不過我們試出來的問題,其實(shí)也不少。 我們搞了套高中數(shù)學(xué)競賽試卷來考它,結(jié)果,一試就尷尬了。。第一道選擇題,新舊兩個(gè)版本就都解錯(cuò)了。 難道說,斯坦福、麻省理工還不如。。? 因?yàn)?GPT-4 可以支持更長的輸入文本,所以我們就又測試了它的總結(jié)概括能力。 這下餡露得更大了。 我們甩給它的是,差評君之前發(fā)過的一篇文章的鏈接,其實(shí) GPT-4 是沒有聯(lián)網(wǎng)的,正常來說是沒法總結(jié)的。 結(jié)果,它愣是憑空捏造了兩個(gè)文章總結(jié),而且和我們給的文章沒有任何關(guān)系。 直到在我反復(fù)指正兩次,語氣都加重了,它才承認(rèn)自己的錯(cuò)誤。 直到后面我們把原文直接貼進(jìn)去后,GPT-4 才展露了它超強(qiáng)的總結(jié)能力。 說實(shí)話,這個(gè)胡編亂造的能力讓我們心里一驚,于是就又想了個(gè)測試方法。 前兩天,小黑胖把“ 手拿把攥 ”記混成“ 手拿把蒜 ”,被編輯部嘲笑了很久,于是我們就問 GPT-4 “ 手拿把蒜什么意思?” 結(jié)果牛掰了,GPT-4在理解了一部分“ 把蒜(攥) ”是形容事情輕而易舉的基礎(chǔ)上,引經(jīng)據(jù)典地胡編亂造,頗有種當(dāng)年我寫作文時(shí),引用的俄羅斯文學(xué)家“ 沃茲基索德 ”的味道了。 要知道,如果是真實(shí)場,這個(gè)半真半假、引用權(quán)威的胡說八道的后果將是非常嚴(yán)重的,堪稱最高級的謊言。 明明連更老的 ChatGPT 也不敢這么捏造來源地胡說,更高級的 GPT-4 怎么會(huì)這樣呢? 我們猜測,就是因?yàn)?/span>新版本更傾向于表現(xiàn)出 “ 更具有深度思考 ”,這么一來,在回答很多問題的時(shí)候,GPT-4 會(huì)自己給自己加戲,才會(huì)出現(xiàn)這些鬧劇。 雖然我們試了這么多漏洞,但總的來講,這次發(fā)布的 ChatGPT,無論是基礎(chǔ)功能、想象空間、邏輯能力、思考能力,都比之前強(qiáng)了一大截。 明明距離老版本 ChatGPT 顛覆我們的認(rèn)知才沒幾個(gè)月,它們就又掏出了一個(gè)船新版本,我們只能說:恐怖如斯。 更恐怖的是,其實(shí) GPT-4 誕生時(shí)間,可能比我們想的還要早很多,之前 OpenAI 發(fā)布基于 GPT-3.5 的 ChatGPT 時(shí),內(nèi)部員工就質(zhì)疑過為啥發(fā)個(gè)這么古早的版本。 而我們也早就接觸過 GPT-4 了,New Bing 官方今天發(fā)了個(gè)公告,承認(rèn)了 New Bing 其實(shí)就是 GPT-4。 所以這么說的話,有沒有種可能,GPT-5 也已經(jīng)近了呢? 我已經(jīng)開始期待除了文字、圖片以外,視頻、音頻等形式的輸入了。 |
19款電子扎帶
電路板識別電子標(biāo)簽