谷歌于周二發(fā)布了Veo 3,一款具備音視頻生成能力的AI工具,能夠生成視頻并同步加入音效。
這款人工智能工具是OpenAI Sora的直接競(jìng)品,其一大亮點(diǎn)是能夠?qū)⒁纛l元素與視頻內(nèi)容無(wú)縫整合。谷歌表示,Veo 3可以生成包括角色對(duì)白和動(dòng)物聲音在內(nèi)的音頻內(nèi)容。
谷歌DeepMind產(chǎn)品副總裁伊萊·柯林斯(Eli Collins)周二在一篇博客中表示:
“Veo 3在文本和圖像提示、現(xiàn)實(shí)物理效果以及精準(zhǔn)唇形同步方面表現(xiàn)出色?!?/p>
谷歌Veo 3實(shí)現(xiàn)音畫(huà)同步生成功能,標(biāo)志著AI視頻生成技術(shù)的重大突破。Veo 3能夠根據(jù)提示詞生成高質(zhì)量視頻,同時(shí)自動(dòng)生成與畫(huà)面同步的對(duì)白、唇動(dòng)對(duì)齊、擬真環(huán)境音效以及情緒氛圍音軌。其底層技術(shù)V2A(Video-to-Audio)通過(guò)將視頻像素轉(zhuǎn)化為語(yǔ)義信號(hào),結(jié)合文本提示生成同步音頻波形,從而實(shí)現(xiàn)了音畫(huà)同步。
Veo 3的音畫(huà)同步功能基于對(duì)物理世界的深刻理解,能夠?qū)崟r(shí)生成與畫(huà)面匹配的聲音,例如腳步聲、烹飪聲等,而不是后期拼接。此外,Veo 3還能精準(zhǔn)捕捉畫(huà)面情緒,渲染氛圍音效,甚至在多角色、多種風(fēng)格的復(fù)雜場(chǎng)景下表現(xiàn)出色。在長(zhǎng)提示詞理解與事件流生成方面,Veo 3也能處理復(fù)雜的事件流,生成邏輯連貫、多步驟執(zhí)行的視頻片段。
這款音視頻AI工具從周二起向美國(guó)用戶(hù)開(kāi)放,訂閱者需加入谷歌新推出的Ultra訂閱計(jì)劃,月費(fèi)為249.99美元,主要面向深度AI愛(ài)好者。同時(shí),Veo 3也將在谷歌的企業(yè)級(jí)AI平臺(tái)Vertex AI上向用戶(hù)開(kāi)放。
目前,X社交平臺(tái)上已經(jīng)涌現(xiàn)大量用戶(hù)“嘗鮮”的視頻。比如,鏡頭跟隨一只臘腸犬穿過(guò)客廳,跑出敞開(kāi)的前門(mén),來(lái)到門(mén)廊。它站在頂層樓梯上,俯瞰著周?chē)木吧@時(shí)一輛冰淇淋車(chē)駛過(guò)。視頻中伴隨小狗沖出門(mén)口的的腳步聲、冰淇淋車(chē)駛過(guò)的聲音。
在X用戶(hù)分享的另一個(gè)Veo3生成的視頻中,一匹馬走進(jìn)酒吧,視頻伴隨馬蹄聲、馬叫聲以及酒保說(shuō)話(huà)的聲音。
這個(gè)新產(chǎn)品的推出正值生成式AI在圖像和視頻創(chuàng)作領(lǐng)域的應(yīng)用日益普及。OpenAI首席執(zhí)行官奧特曼曾透露,其旗下ChatGPT 4o的圖像生成功能因過(guò)度受歡迎,甚至一度令計(jì)算芯片“過(guò)熱”,公司不得不暫時(shí)限制該功能使用。
此外,谷歌還宣布對(duì)Veo 2進(jìn)行更新,新增支持通過(guò)文字提示對(duì)視頻中物體進(jìn)行增刪的功能。同時(shí),谷歌開(kāi)放了其AI音樂(lè)生成模型Lyria 2,供YouTube Shorts創(chuàng)作者及Vertex AI企業(yè)客戶(hù)使用。
550
收藏



















