“王炸”AI模型來了！谷歌全面對標OpenAI，究竟誰更勝一籌

2024-5-18 16:49| 發(fā)布者: admin| 查看: 255| 評論: 0

摘要: 潮新聞客戶端記者許伊雯張云山新一輪的大模型之爭開始了。24小時以前，OpenAI搶先發(fā)布GPT-4o，通過實時的語音、視頻和文本交互刷屏社交網絡，震撼著全世界。僅僅過了一天，科技巨頭谷歌頂著壓力，全面反擊OpenAI ...

潮新聞客戶端記者許伊雯張云山

新一輪的大模型之爭開始了。

24小時以前，OpenAI搶先發(fā)布GPT-4o，通過實時的語音、視頻和文本交互刷屏社交網絡，震撼著全世界。僅僅過了一天，科技巨頭谷歌頂著壓力，全面反擊OpenAI。

5月15日凌晨，在一年一度的“科技界春晚”Google I/O 開發(fā)者大會上，谷歌展示了十來款新品和升級，其中就有由升級后Gemini模型驅動的AI助手項目Project Astra、對標Sora的文生視頻模型Veo，以及在硬件方面發(fā)布的第六代Tensor處理器單元（TPU）Trillium芯片，還將搜索業(yè)務做了最徹底的AI改造。

谷歌首席執(zhí)行官桑達爾?皮查伊（Sundar Pichai）介紹，谷歌所有的工作都圍繞生成式AI模型Gemini來做。一年前，谷歌首次分享了原生多模態(tài)大模型 Gemini的計劃，現在已經有超過150萬開發(fā)者正在使用谷歌的人工智能Gemini，“今天，我們希望每個人都能從Gemini的技術中受益?！?br>
谷歌發(fā)布語音助手Astra，能力上全面對標GPT-4o

這次大會，谷歌揭幕了一款名為Project Astra的通用人工智能系統(tǒng)，旨在與OpenAI的GPT-4o展開競爭。

谷歌DeepMind首席執(zhí)行官兼聯合創(chuàng)始人Demis Hassabis親自展示了Astra模型。這款模型通過智能手機的攝像頭捕捉并分析周圍環(huán)境，還能與用戶進行實時對話。

在演示中，用戶手持手機，將攝像頭對準辦公室的不同角落，并通過語言與系統(tǒng)進行交互。例如，當用戶發(fā)出指令“請告訴我智能眼鏡在哪里”時，Astra能夠迅速識別物體，并與用戶進行實時的語音交流。同時，它能成功地識別出代碼序列、為電路圖提出改進建議、通過鏡頭“看到”倫敦國王十字區(qū)等等。

谷歌發(fā)布語音助手Astra。圖源：谷歌年度開發(fā)者I/O大會現場

大會上，谷歌官方演示了這款系統(tǒng)與AR眼鏡的結合使用，預示著它在日常生活場景中的廣泛應用潛力。目前該應用仍處于原型階段，但谷歌表示，計劃在今年晚些時候正式推出。

據介紹，谷歌在Gemini的基礎上開發(fā)了Astra的原型，可以通過連續(xù)編碼視頻幀、將視頻和語音輸入組合到事件時間線中以實現更快地處理信息。通過語音模型，谷歌也強化了智能助手的說話能力，讓其能夠給出更快速地回應。

不過，在演示視頻中，谷歌AI助手的回應速度似乎還是會比GPT-4o稍慢一些，語音所表現出的感情色彩也平淡一些。

前一天發(fā)布的GPT-4o多模態(tài)大模型，相較于GPT-4 Trubo速度更快、價格也更便宜。直播過程中，兩位OpenAI的員工向大家展示了GPT-4o的更新細節(jié)，比如它能感知用戶情緒、具備不同情緒的聲音、實時視覺功能和更即時的語音交互。其中，ChatGPT-4o還能通過前置攝像頭觀察用戶的面部表情，檢測其情緒。

有評論稱，這個演示顯示，GPT-4o讓聊天機器人不再那么機械冷漠，而是更加接近真實人類，能夠理解并表達情緒，還可以讀取人類的情緒，但讀取還有一點困難。

有業(yè)內人士評價，從演示上看，Astra的視覺理解能力確實讓人印象深刻，但在交互體驗上要比GPT-4o實時演示的能力要差許多。無論是響應時長、語音的情感豐富度、可打斷等方面，GPT-4o的交互體驗似乎更自然。

發(fā)布視頻生成模型Veo反擊Sora，視覺效果頗為驚艷

在AI生成視頻方面，谷歌宣布推出視頻生成模型 Veo，能夠生成分辨率最高達1080p的高質量視頻，時長可以超過一分鐘，涵蓋多種電影和視覺風格。

據谷歌介紹，Veo在理解視頻內容、渲染高清圖像、模擬物理原理等方面都有所突破，能精準捕捉“延時攝影”、“航拍風景”等電影術語，并將其轉化為生動的視覺表達。并具有更高的連貫性和一致性，人物、動物和物體的動作也更加逼真，視覺效果頗為驚艷。

“王炸”AI模型來了！谷歌全面對標OpenAI，究竟誰更勝一籌

Veo生成的視頻

本著“打不過就加入”原則，很多藝術家已在嘗試這個項目。谷歌展示了與電影制片人唐納德·格洛弗（Donald Glover）及其創(chuàng)意工作室吉爾加（Gilga）的一些合作，以及藝術家Wyclef Jean，Marc Rebillet和詞曲作者Justin Tranter在音樂AI沙盒的幫助下發(fā)布的新演示錄音。

早前OpenAI發(fā)布首個文生視頻模型Sora，在網上迅速刷屏，不少網友躍躍欲試。Sora可以快速制作最長一分鐘、準確反映用戶提示、可一鏡到底的視頻，呈現“具有多個角色、特定類型的動作，以及主題和背景的準確細節(jié)”的復雜場景。

但OpenAI表示，Sora存在不成熟之處，可能難以理解因果關系。多位人工智能領域人士表示，該問題可能因其概率模式的邏輯存有“硬傷”。加大訓練量、增加訓練數據與物理邏輯可改善該問題，但無法根治。想要真正突破最底層邏輯上的問題，因果關系是一條必經之路。

對于Veo用戶，可以通過點擊“擴展”按鈕，持續(xù)增加視頻的時長，最終達到了1分10秒，超過了Sora的時長。至于它有哪些不足之處，目前暫無定論，還有待用戶體驗。

目前，Veo已經開始在谷歌官網開放試用。此外，谷歌還在積極探索更多功能，使Veo能夠制作故事板和更長的場景，進一步拓展其應用場景和創(chuàng)作空間。

“王炸”AI模型來了！谷歌全面對標OpenAI，究竟誰更勝一籌

完全聚焦于AI的這場主題演講總共提到了121次AI。圖源：谷歌年度開發(fā)者I/O大會現場

在這次Google I/O開發(fā)者大會上，AI依舊是所有話題的中心，幾乎每一個功能更新都與AI緊密相關。例如，谷歌升級搜索引擎，還更新升級了Gemini1.5Pro版本，同時推出Gemini1.5Flash輕量化小模型。

根據發(fā)布會最后的官方統(tǒng)計，這場長達 110 分鐘的主題演講中，谷歌總共提到了121次AI。生成式AI的競爭，在此刻達到新的高潮。

這場AI的大角逐到底誰能最后勝出？目前尚無定論。從本次發(fā)布會的展示來看，谷歌和OpenAI之間的差距似乎正在逐漸縮小。兩家公司不僅在AI領域進行激烈的角逐，并且都在努力推動AI應用于更廣泛的場景。

盡管我們從谷歌的搜索產品、模型產品上看到了谷歌的疲態(tài)和創(chuàng)新的缺失，外界評論稱，和GPT-4o不到30分鐘的發(fā)布會相比，谷歌“缺乏驚喜”。但從生態(tài)和用戶積累上，谷歌依然具有先天優(yōu)勢。

“轉載請注明出處”