隨著Sora的出現(xiàn),或?qū)噭?dòng)視頻生成領(lǐng)域的風(fēng)云。

OpenAI發(fā)布文生視頻模型Sora

2024-02-16 09:55:56發(fā)布     來(lái)源:多知網(wǎng)    作者:哆啦  

  多知網(wǎng)2月16日消息,OpenAI今日發(fā)布文生視頻模型產(chǎn)品Sora。據(jù)官網(wǎng)介紹,Sora是一種人工智能模型,可以根據(jù)文本指令快速創(chuàng)建逼真的60秒視頻,同時(shí)保持視覺(jué)質(zhì)量并遵守用戶的提示。

  屏幕快照 2024-02-16 上午8.17.44.png

  據(jù)介紹,研發(fā)團(tuán)隊(duì)正在教人工智能理解和模擬運(yùn)動(dòng)中的物理世界,目標(biāo)是訓(xùn)練模型,幫助人們解決需要現(xiàn)實(shí)世界互動(dòng)的問(wèn)題。

  據(jù)介紹,Sora能夠生成具有多個(gè)角色、特定類型的動(dòng)作以及主題和背景細(xì)節(jié)精確的復(fù)雜場(chǎng)景。該模型不僅了解用戶在提示中要求什么,還了解這些東西在物理世界中的存在方式。

  Sora對(duì)語(yǔ)言有深刻的理解,使其能夠準(zhǔn)確地解釋提示,并生成表達(dá)充滿活力的情感的引人注目的角色。Sora還可以在一個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭,準(zhǔn)確地保留角色和視覺(jué)風(fēng)格。

  不過(guò),OpenAI也指出,Sora還有進(jìn)步的空間。目前,它可能難以準(zhǔn)確地模擬復(fù)雜場(chǎng)景的物理,也可能無(wú)法理解因果關(guān)系的具體實(shí)例。例如在Sora生成的視頻里,一個(gè)人可能咬了一口餅干,但之后,餅干上可能沒(méi)有咬痕。此外,該模型還可能混淆提示的空間細(xì)節(jié),例如,混淆左和右,并且可能難以精確描述隨時(shí)間發(fā)生的事件,例如跟隨特定的攝像機(jī)軌跡。

  OpenAI還授予一個(gè)專家團(tuán)隊(duì)訪問(wèn)權(quán)限,該團(tuán)隊(duì)負(fù)責(zé)評(píng)估Sora的安全性,然后將其納入公司的產(chǎn)品中。作為推出該產(chǎn)品的準(zhǔn)備工作的一部分,OpenAI表示正在開(kāi)發(fā)工具,以幫助檢測(cè)視頻是由Sora生成的。團(tuán)隊(duì)也允許一些視覺(jué)藝術(shù)家、設(shè)計(jì)師和電影制作人訪問(wèn),以獲得關(guān)于如何推進(jìn)該模型以對(duì)創(chuàng)意專業(yè)人士最有幫助的反饋。

  在視頻生成領(lǐng)域,此前已經(jīng)出現(xiàn)了Runway和Pika等知名選手,均可以生成逼真視頻。隨著Sora的出現(xiàn),或?qū)噭?dòng)視頻生成領(lǐng)域的風(fēng)云。