7 月 30 日,OpenAI 推出了 ChatGPT 高級語音模式,用戶首次能夠體驗(yàn) GPT-4o 超逼真語音交互。目前,Alpha 版本面向于小部分 ChatGPT Plus 用戶,秋季之后將逐步推廣至所有 Plus 用戶。 OpenAI 表示,春季更新期間演示的視頻和屏幕共享功能并不包括在 Alpha 版本在內(nèi),而是在后面推出。 ChatGPT 高級語音模式不同于此前的語音模式,原有的音頻解決方案使用了三個(gè)獨(dú)立的模型:一個(gè)用于將用戶的語音轉(zhuǎn)換為文本,然后由 GPT-4 處理 Prompt,然后由第三個(gè)模型將 ChatGPT 生成的文本轉(zhuǎn)化為語音。 GPT-4o 是一個(gè)多模態(tài)模型,能夠在沒有其他模型輔助的情況下處理這些任務(wù),因?yàn)樵隗w驗(yàn)上將顯著降低對話的延遲。 OpenAI 還透露,GPT-4o 可以感知用戶聲音中的情緒語調(diào),包括悲傷、興奮或者唱歌;目前,Alpha 組的用戶將在 ChatGPT 中收到提醒,并將收到一封郵件介紹如何使用。 據(jù)悉,高級語音模式種的預(yù)設(shè)聲音將僅限 Juniper、Breeze、Cove 以及 Ember,這些都是與付費(fèi)配音演員合作制作的,而 5 月份演示的 Sky 聲音將不再可用。 OpenAI 發(fā)言人 Lindsay McCallum 表示,ChatGPT 目前還無法模仿其他人的聲音,無論是個(gè)人還是公眾人物,并且會屏蔽與這四種預(yù)設(shè)聲音不同的輸出。 此外,OpenAI 引入了新的過濾方式來避免模型生成受版權(quán)保護(hù)的音頻,從而造成法律糾紛。 自發(fā)布 Demo 以來,OpenAI 已經(jīng)與 100 多名使用 45 種不同語言的外部紅隊(duì)成員一起測試了 GPT-4o 語音功能,相關(guān)的安全措施報(bào)告將在 8 月初發(fā)布。 本文由人人都是產(chǎn)品經(jīng)理作者【江天 Tim】,微信公眾號:【有新Newin】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。 題圖來自Unsplash,基于 CC0 協(xié)議。 |