潮新聞客戶端 記者 許伊雯 張云山 新一輪的大模型之爭開始了。 24小時以前,OpenAI搶先發(fā)布GPT-4o,通過實時的語音、視頻和文本交互刷屏社交網絡,震撼著全世界。僅僅過了一天,科技巨頭谷歌頂著壓力,全面反擊OpenAI。 5月15日凌晨,在一年一度的“科技界春晚”Google I/O 開發(fā)者大會上,谷歌展示了十來款新品和升級,其中就有由升級后Gemini模型驅動的AI助手項目Project Astra、對標Sora的文生視頻模型Veo,以及在硬件方面發(fā)布的第六代Tensor處理器單元(TPU)Trillium芯片,還將搜索業(yè)務做了最徹底的AI改造。 谷歌首席執(zhí)行官桑達爾?皮查伊(Sundar Pichai)介紹,谷歌所有的工作都圍繞生成式AI模型Gemini來做。一年前,谷歌首次分享了原生多模態(tài)大模型 Gemini的計劃,現在已經有超過150萬開發(fā)者正在使用谷歌的人工智能Gemini,“今天,我們希望每個人都能從Gemini的技術中受益?!?br> 谷歌發(fā)布語音助手Astra,能力上全面對標GPT-4o 這次大會,谷歌揭幕了一款名為Project Astra的通用人工智能系統(tǒng),旨在與OpenAI的GPT-4o展開競爭。 谷歌DeepMind首席執(zhí)行官兼聯合創(chuàng)始人Demis Hassabis親自展示了Astra模型。這款模型通過智能手機的攝像頭捕捉并分析周圍環(huán)境,還能與用戶進行實時對話。 在演示中,用戶手持手機,將攝像頭對準辦公室的不同角落,并通過語言與系統(tǒng)進行交互。例如,當用戶發(fā)出指令“請告訴我智能眼鏡在哪里”時,Astra能夠迅速識別物體,并與用戶進行實時的語音交流。同時,它能成功地識別出代碼序列、為電路圖提出改進建議、通過鏡頭“看到”倫敦國王十字區(qū)等等。 谷歌發(fā)布語音助手Astra。圖源:谷歌年度開發(fā)者I/O大會現場 大會上,谷歌官方演示了這款系統(tǒng)與AR眼鏡的結合使用,預示著它在日常生活場景中的廣泛應用潛力。目前該應用仍處于原型階段,但谷歌表示,計劃在今年晚些時候正式推出。 據介紹,谷歌在Gemini的基礎上開發(fā)了Astra的原型,可以通過連續(xù)編碼視頻幀、將視頻和語音輸入組合到事件時間線中以實現更快地處理信息。通過語音模型,谷歌也強化了智能助手的說話能力,讓其能夠給出更快速地回應。 不過,在演示視頻中,谷歌AI助手的回應速度似乎還是會比GPT-4o稍慢一些,語音所表現出的感情色彩也平淡一些。 前一天發(fā)布的GPT-4o多模態(tài)大模型,相較于GPT-4 Trubo速度更快、價格也更便宜。直播過程中,兩位OpenAI的員工向大家展示了GPT-4o的更新細節(jié),比如它能感知用戶情緒、具備不同情緒的聲音、實時視覺功能和更即時的語音交互。其中,ChatGPT-4o還能通過前置攝像頭觀察用戶的面部表情,檢測其情緒。 有評論稱,這個演示顯示,GPT-4o讓聊天機器人不再那么機械冷漠,而是更加接近真實人類,能夠理解并表達情緒,還可以讀取人類的情緒,但讀取還有一點困難。 有業(yè)內人士評價,從演示上看,Astra的視覺理解能力確實讓人印象深刻,但在交互體驗上要比GPT-4o實時演示的能力要差許多。無論是響應時長、語音的情感豐富度、可打斷等方面,GPT-4o的交互體驗似乎更自然。 發(fā)布視頻生成模型Veo反擊Sora,視覺效果頗為驚艷 在AI生成視頻方面,谷歌宣布推出視頻生成模型 Veo,能夠生成分辨率最高達1080p的高質量視頻,時長可以超過一分鐘,涵蓋多種電影和視覺風格。 據谷歌介紹,Veo在理解視頻內容、渲染高清圖像、模擬物理原理等方面都有所突破,能精準捕捉“延時攝影”、“航拍風景”等電影術語,并將其轉化為生動的視覺表達。并具有更高的連貫性和一致性,人物、動物和物體的動作也更加逼真,視覺效果頗為驚艷。 Veo生成的視頻 本著“打不過就加入”原則,很多藝術家已在嘗試這個項目。谷歌展示了與電影制片人唐納德·格洛弗(Donald Glover)及其創(chuàng)意工作室吉爾加(Gilga)的一些合作,以及藝術家Wyclef Jean,Marc Rebillet和詞曲作者Justin Tranter在音樂AI沙盒的幫助下發(fā)布的新演示錄音。 早前OpenAI發(fā)布首個文生視頻模型Sora,在網上迅速刷屏,不少網友躍躍欲試。Sora可以快速制作最長一分鐘、準確反映用戶提示、可一鏡到底的視頻,呈現“具有多個角色、特定類型的動作,以及主題和背景的準確細節(jié)”的復雜場景。 但OpenAI表示,Sora存在不成熟之處,可能難以理解因果關系。多位人工智能領域人士表示,該問題可能因其概率模式的邏輯存有“硬傷”。加大訓練量、增加訓練數據與物理邏輯可改善該問題,但無法根治。想要真正突破最底層邏輯上的問題,因果關系是一條必經之路。 對于Veo用戶,可以通過點擊“擴展”按鈕,持續(xù)增加視頻的時長,最終達到了1分10秒,超過了Sora的時長。至于它有哪些不足之處,目前暫無定論,還有待用戶體驗。 目前,Veo已經開始在谷歌官網開放試用。此外,谷歌還在積極探索更多功能,使Veo能夠制作故事板和更長的場景,進一步拓展其應用場景和創(chuàng)作空間。 完全聚焦于AI的這場主題演講總共提到了121次AI。 圖源:谷歌年度開發(fā)者I/O大會現場 在這次Google I/O開發(fā)者大會上,AI依舊是所有話題的中心,幾乎每一個功能更新都與AI緊密相關。例如,谷歌升級搜索引擎,還更新升級了Gemini1.5Pro版本,同時推出Gemini1.5Flash輕量化小模型。 根據發(fā)布會最后的官方統(tǒng)計,這場長達 110 分鐘的主題演講中,谷歌總共提到了121次AI。生成式AI的競爭,在此刻達到新的高潮。 這場AI的大角逐到底誰能最后勝出?目前尚無定論。從本次發(fā)布會的展示來看,谷歌和OpenAI之間的差距似乎正在逐漸縮小。兩家公司不僅在AI領域進行激烈的角逐,并且都在努力推動AI應用于更廣泛的場景。 盡管我們從谷歌的搜索產品、模型產品上看到了谷歌的疲態(tài)和創(chuàng)新的缺失,外界評論稱,和GPT-4o不到30分鐘的發(fā)布會相比,谷歌“缺乏驚喜”。但從生態(tài)和用戶積累上,谷歌依然具有先天優(yōu)勢。 “轉載請注明出處” |
19款電子扎帶
電路板識別電子標簽