字節(jié)跳動版ChatGPT,現(xiàn)在人人可玩了! 網(wǎng)頁版、安卓版和iOS版同步上線,用抖音賬號、手機號和蘋果賬號都能登錄。 并且無需排隊,打開就能和這個名叫“豆包”的AI助手直接開聊。 是doubao.com不是douban.com噢~ 消息一出,已經(jīng)有不少胖友第一時間前往圍(tiao)觀(xi)。 我們也抓緊實測了一波~ 與ChatGLM難分伯仲先來看看豆包是怎么介紹自己的: 既然如此,我們就來試試這些“官方功能”靠不靠譜。 比如,我們挑選了幾個有意思的錯誤機翻讓豆包糾正,結(jié)果豆包給出的反饋還挺不錯的: 尤其是“鴛鴦鍋”的翻譯,可以說是完勝Google和DeepL。 知識方面的話,當(dāng)然要問一下“刁鉆”的問題了:雷公電母放出的電是直流電還是交流電。 豆包的這個回答,可以概括成“不是直流電,而是直流電”,但前面說的還算可以吧。 拋開整活的話,豆包的開胃小菜的確給了我們一個不錯的第一印象。 那么下面我們就上正餐——來拿它和備受好評的國產(chǎn)開源大模型ChatGLM進行一場大橫評。 具體的內(nèi)容包括文案創(chuàng)作、邏輯推理、數(shù)學(xué)和代碼四個方面。 文案創(chuàng)作方面,豆包說自己會撰寫知乎、小紅書等各種風(fēng)格的文案。 我們不妨整個奇葩點的東西,看看它能不能創(chuàng)作得出來,比如……豆汁美式的小紅書筆記。 文案搭配著emoji,連Tag都有了,看來豆包真的是懂小紅書的。 不過你確定“醇香甘甜”這個詞是用來形容豆汁的嗎…… ChatGLM雖然寫了很多,但是沒審清題,把豆汁直接當(dāng)成了豆?jié){…… (這么一看,豆包可能也理解成豆?jié){了,但是人家沒直接說成豆?jié){?。?/span> 看來豆包是有一定創(chuàng)作能力的,所以不妨再加大難度。 直接讓它給“豆汁美式”的宣傳片寫個短視頻腳本。 ChatGLM的版本細節(jié)則要豐富些,不過豆包的版本也算是五臟俱全了。 兩者的文案創(chuàng)作水平不相上下,那么邏輯推理能力又怎么樣呢? 我們找來了一道推理題目,這道題兩位選手都沒能做對(正確答案是甲3乙1丙2): 雖然都沒做對,但是豆包的思路好像在往正確的方向上走了。 而ChatGLM的解答,反正我是沒看懂。 這一環(huán)節(jié)對兩者的表現(xiàn)也是很難評價,那么,馬上進入一眾大模型的噩夢環(huán)節(jié)——數(shù)學(xué)。 簡單如雞兔同籠這樣的問題就不測了,我們直接上難度,拿一道高考題給他們試試。 △2023北京卷第16題 (圖片我們沒有輸入,但沒有圖片也能解題;第一問是證明,我們也去掉了) 豆包使用的是純幾何方法,最后的答案是正確的,但很遺憾過程不對。 △從紅框開始出現(xiàn)錯誤 ChatGLM則使用了向量解法: 首先結(jié)果是錯的,不過120倒是和60度互補,是出了些小問題嗎? 但我們很快發(fā)現(xiàn)了華點: 這里不應(yīng)該約等于就先不提了……兩個正數(shù)相除你是怎么給約成個負(fù)數(shù)的…… 標(biāo)準(zhǔn)答案是醬嬸兒的,由于第二問要用到第一問的證明結(jié)論,所以把第一問的過程也放上來了: 如此看來,在數(shù)學(xué)修煉上,兩位大模型選手都還有很大的進步空間。 那么面對大家喜聞樂見的代碼問題,豆包又該如何應(yīng)對呢? 先看比較基礎(chǔ)的冒泡排序算法。 我們試著跑了一下(換掉了預(yù)設(shè)的數(shù)字),結(jié)果成功輸出了答案: 接下來上LeetCode,我們先選了一個比較簡單的把阿拉伯?dāng)?shù)字轉(zhuǎn)換成羅馬數(shù)字的題目。 豆包很快就生成了一段代碼,還附帶了解釋: 而ChatGLM給出的代碼是這樣的(也附有解釋): 運行的結(jié)果是豆包正確,ChatGLM錯誤: 不過稍微復(fù)雜一些的題目,他們就都做不對了。 除了設(shè)計算法,我們還想看看他們能不能用代碼“畫圖”。 我們隨機生成了兩列數(shù)據(jù),看看能不能搞個折線圖出來: 結(jié)果用豆包的代碼畫出了這么個東西…… ChatGLM這邊的情況嘛……好家伙,直接報錯運行不了。 代碼環(huán)節(jié)就先展示到這里了,用一句話說就是:都還得練。 看了這么多,想必讀者朋友們已經(jīng)有些累了,所以我們還準(zhǔn)備了“餐后甜點”,來點輕松的內(nèi)容。 弱智吧,開整! Q1:蘿卜到底能不能“開胃”呢? “必要時尋求專業(yè)醫(yī)生幫助”,這難道是在自己給自己做手術(shù)嗎…… Q2:導(dǎo)盲犬禁止入內(nèi),是給盲人看得,還是給導(dǎo)盲犬看的? 豆包在A和B兩個選項當(dāng)中選擇了C。 而問及“隕石為什么總砸中隕石坑”,豆包倒是說對了,只不過回答得有點復(fù)雜。 弱智吧的測評結(jié)果總結(jié)下來就是:AI還是太單純,還沒辦法理解人類復(fù)雜的小心思。 字節(jié)跳動大模型開始發(fā)力字節(jié)跳動選在這時候開放“豆包”測試,似乎有些令人意外。 但實際上,這個時間線倒推起來也不是無跡可尋: 在ChatGPT掀起狂瀾的今年二三月,字節(jié)跳動就已有組建大模型團隊的消息傳出。 據(jù)36kr消息,其探索方向主要是語言和圖像兩類大模型,希望能將大模型與字節(jié)本身的搜索、廣告等下游業(yè)務(wù)相結(jié)合。 但在當(dāng)時,字節(jié)方面相關(guān)技術(shù)負(fù)責(zé)人的回應(yīng)是:
此后的“百模大戰(zhàn)”之中,字節(jié)跳動似乎并沒有正式參戰(zhàn)的意思,旗下云平臺火山引擎,打出的也是“為大模型打造技術(shù)底座”、接入第三方大模型做大模型旗艦店商城的旗號。 直到6月份,字節(jié)跳動被曝開始內(nèi)部測試一款A(yù)I對話類產(chǎn)品,代號“Grace”。 而Grace的網(wǎng)址“gracebot.cn”,現(xiàn)在會直接跳轉(zhuǎn)到豆包官網(wǎng)。 雖然豆包本包并不承認(rèn)自己就是Grace,但目前看來,豆包就是Grace的開放測試版本。 另外,“豆包”項目組的盆友向我們透露,豆包尚處于早期開發(fā)驗證階段。測試期還存在較多局限,生成的內(nèi)容也可能不準(zhǔn)確,歡迎測試用戶們多提意見多反饋。 值得關(guān)注的是,最近,一個名叫BuboGPT的多模態(tài)大模型,在huggingface上上線了Demo。這一大模型背后同樣有來自字節(jié)跳動的技術(shù)參與。 論文介紹,BuboGPT支持文本、圖像、音頻三種模態(tài),能做到細粒度的多模態(tài)聯(lián)合理解。 比如給它這樣一張圖片: BuboGPT不僅能識別出青蛙和青蛙手里的班卓琴,還能總結(jié)出青蛙的具體動作、所處環(huán)境。 One More Thing字節(jié)跳動終于出手,那么豆包這表現(xiàn)你給打幾分? 話說回來,就在大模型漸漸走出每周都有新模發(fā)布的狂熱期,國產(chǎn)大模型的先行者們,回答質(zhì)量已經(jīng)悄然進步了不少。 比如當(dāng)初難倒眾多大模型英雄漢的“爸媽婚禮不帶我”問題,如今許多國產(chǎn)大模型都能回答得有理有據(jù)。 △上百度下訊飛 國產(chǎn)大模型的評判標(biāo)尺,或許也已到了再上一個臺階的時候。 所以,國產(chǎn)大模型百花齊放,是否也給到你新的驚喜了呢?歡迎在評論區(qū)與我們分享~ — 完 — 量子位 QbitAI · 頭條號簽約 關(guān)注我們,第一時間獲知前沿科技動態(tài) |
19款電子扎帶
電路板識別電子標(biāo)簽