為什么說(shuō) Sora 是世界的模擬器？

2024-02-21 10:36:21發(fā)布來(lái)源：飛哥說(shuō)AI 作者：李志飛李維高佳

　　編者按：

　　本文轉(zhuǎn)載自“飛哥說(shuō)AI”。作者在文中分析了“為什么說(shuō) Sora 是世界的模擬器?”他表示ChatGPT 作為語(yǔ)言模型，通過(guò)“語(yǔ)言”這一思維的載體，可以多方面模擬虛擬世界中的各種場(chǎng)景和角色(合理絲滑的故事線)，成為虛擬世界的“模擬器”。并且他們認(rèn)為ChatGPT是懂得思維的，是理解思維世界的，具有自己的認(rèn)知。

　　作者 | 李維高佳

　　創(chuàng)意 | 李志飛

　　AI 視頻生成的「ChatGPT時(shí)刻」比想象中提前了6個(gè)月。

　　Sora 的誕生意味著什么，何以堪稱「世界的模擬器」?

　　OpenAI 技術(shù)報(bào)告中透露，Sora 能夠深刻地「理解」運(yùn)動(dòng)中的物理世界，堪稱為真正的世界模型。

　　而 LeCun 則一貫酸溜溜地認(rèn)為 Sora 不能理解物理世界，在他看來(lái)，「僅根據(jù)文字提示生成逼真的視頻，并不代表模型理解了物理世界。生成視頻的過(guò)程與基于世界模型的因果預(yù)測(cè)完全不同」。

　　Sora 真的理解物理世界嗎？與 ChatGPT 的底層邏輯有什么異同？

　　成為物理世界的模擬器，Sora 是唯一的解法嗎？

　　OpenAI 接連核爆，「暴力美學(xué)」之路真的能抵達(dá) AGI 嗎？

　　01.

　　Sora 是世界的模擬器？

　　OpenAI 在其技術(shù)報(bào)告中只字未提與模型架構(gòu)、數(shù)據(jù)規(guī)模、訓(xùn)練成本等相關(guān)的細(xì)節(jié)，但其標(biāo)題赫然指出 Sora這類視頻生成模型是「世界的模擬器」。

　　OpenAI 想強(qiáng)調(diào)，Sora 不是單純的視頻生成模型，不只是視頻行業(yè)顛覆者，而是「世界的模擬器」——它打開(kāi)了一條通往模擬物理世界的有效路徑。

　　OpenAI 僅列舉了作為物理世界的模擬器應(yīng)具備的幾個(gè)特點(diǎn)和例子——3D一致性、遠(yuǎn)程相關(guān)性、物體持久性、與世界互動(dòng)等，卻并未對(duì)“什么是世界的模擬器”做任何定義和具體分析。

　　但我們大概可以總結(jié)出它的邏輯：Sora生成的視頻能夠在相當(dāng)長(zhǎng)的時(shí)空范圍內(nèi)，不違反物理世界的常見(jiàn)規(guī)律（比如重力、光電、碰撞等）。如果模型規(guī)模進(jìn)一步提升，它有可能模擬生成物理世界的一切視頻。

　　我們不禁疑問(wèn)，為什么 OpenAI 在此時(shí)提出「模擬器」這一概念，它究竟是什么？如何成為「世界的模擬器」？與單純的視頻生成模型有什么邏輯關(guān)系？進(jìn)而，一個(gè)能夠模擬復(fù)雜世界動(dòng)態(tài)的 AI 會(huì)將人類帶往何處？

　　在談物理世界的模擬器之前，我們先重溫一下虛擬世界的模擬器——ChatGPT.

　　02.

　　ChatGPT 是虛擬思維世界的“模擬器”？

　　何謂“模擬器”，顧名思義，如同動(dòng)態(tài)鏡像一般，模擬器是可以逼真“反映”虛擬世界或現(xiàn)實(shí)世界的模型或系統(tǒng)。

　　游戲可視為一種對(duì)現(xiàn)實(shí)世界的模擬，所謂數(shù)字世界。

　　游戲的數(shù)字世界通常有一個(gè)既定的環(huán)境，包括人物、場(chǎng)景、功能道具等，還有一個(gè)起始的配置。給以目標(biāo)指令，按下『start』，游戲主角便可以開(kāi)始出發(fā)探索這個(gè)世界，與之互動(dòng)。

　　比如在小游戲《超級(jí)馬里奧》中，主角馬里奧和每一關(guān)卡的場(chǎng)景都是既定的環(huán)境，小馬里奧只身出場(chǎng)是起始配置，在規(guī)則下贏得金幣是目標(biāo)指令，『start』游戲開(kāi)始，直達(dá)旅程目標(biāo)。

　　這就是一個(gè)最簡(jiǎn)單模擬器的模擬過(guò)程，構(gòu)造了一個(gè)既定場(chǎng)景的小世界。

　　在 ChatGPT 這類應(yīng)用中，我們通常可以為模型設(shè)置角色，例如設(shè)置為用戶的助理、教師或伴侶(可視為環(huán)境)，用戶就可以給出目標(biāo)指令開(kāi)始與之交互。

　　比如可以讓 ChatGPT 寫一篇關(guān)于 Sora 的文章，給它一段開(kāi)頭，ChatGPT 就會(huì)續(xù)寫整篇;給定一段故事結(jié)尾，它可以補(bǔ)足故事的來(lái)龍去脈;給出一段故事節(jié)選，它可以展開(kāi)前后兩端的想象，予以擴(kuò)寫;給定完整的篇幅，它也可以縮寫摘要。成篇非常順暢絲滑，符合文法和邏輯。

　　這些語(yǔ)言任務(wù)的完成，其實(shí)是在模擬創(chuàng)作者的思維過(guò)程。

　　而對(duì)創(chuàng)作者思維的模擬，需要遵從思維背后的邏輯和常識(shí)。比如 ChatGPT 在續(xù)寫 Sora 原理的文章時(shí)，會(huì)圍繞深度學(xué)習(xí)和語(yǔ)言模型層層推進(jìn)，邏輯線條合理，而不會(huì)跳躍到辛亥革命或咖啡機(jī)使用指南。

　　ChatGPT 作為語(yǔ)言模型，通過(guò)“語(yǔ)言”這一思維的載體，可以多方面模擬虛擬世界中的各種場(chǎng)景和角色(合理絲滑的故事線)，成為虛擬世界的“模擬器”。

　　既然 ChatGPT 對(duì)答如流，也能模擬不同風(fēng)格的文學(xué)家、詩(shī)人寫詩(shī)作文，作品不違反常識(shí)，也符合人類思維規(guī)律，那是否說(shuō)明它就掌握了這些規(guī)律呢?

　　功能主義角度的回答是肯定的。我們可以認(rèn)為ChatGPT是懂得思維的，是理解思維世界的，具有自己的認(rèn)知。雖然我們沒(méi)有一一教他具體的思維邏輯和常識(shí)，但它讀遍浩瀚的書籍?dāng)?shù)據(jù)，已然從數(shù)據(jù)中汲取了海量的知識(shí)，掌握了知識(shí)背后的思維邏輯。

　　ChatGPT這類語(yǔ)言模型從語(yǔ)言大數(shù)據(jù)中的學(xué)習(xí)，實(shí)際上就是在模擬一個(gè)充滿了人類思維和認(rèn)知映射的虛擬世界。

　　今天的ChatGPT已經(jīng)攻下了虛擬世界“模擬器”的堡壘。它所反映的人類認(rèn)知，包括常識(shí)、百科知識(shí)以及推理邏輯，實(shí)際上已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了絕大部分人類個(gè)體。

　　那么物理世界的模擬器會(huì)以何種方式呈現(xiàn)?

　　03.

　　何為物理世界的模擬器？遵循物理世界規(guī)律

　　如同人類的思維世界要前后自洽，不違反常識(shí)，遵循分析歸納、邏輯推理等「規(guī)律」(統(tǒng)稱思維邏輯)，物理世界也有背后的「規(guī)律」，包括能量守恒定律、熱力學(xué)定律、力的相互作用定律等等。

　　比如蘋果不能突然在空中漂浮，這不符合牛頓的萬(wàn)有引力定律;比如在光線照射下，物體產(chǎn)生的陰影和高光的分布要符合光影規(guī)律等;比如物體之間產(chǎn)生碰撞后會(huì)破碎或者彈開(kāi)。

　　作為“物理世界的模擬器”，需要能夠在虛擬環(huán)境中重現(xiàn)物理現(xiàn)實(shí)，為用戶提供一個(gè)逼真且不違反「物理規(guī)律」的數(shù)字世界。

　　技術(shù)上至少有兩種方式可以實(shí)現(xiàn)這樣的模擬器，一種是通過(guò)大數(shù)據(jù)學(xué)習(xí)出一個(gè)AI系統(tǒng)來(lái)模擬這個(gè)世界，比如說(shuō)本文討論的 Sora。

　　另外一種是弄懂物理世界各種現(xiàn)象背后的數(shù)學(xué)原理，并把這些原理手工編碼到計(jì)算機(jī)程序里，從而讓計(jì)算機(jī)程序“渲染”出物理世界需要的各種人、物、場(chǎng)景、以及他們之間的互動(dòng)。

　　虛幻引擎（Unreal Engine，UE）就是這種物理世界的模擬器。它內(nèi)置了光照、碰撞、動(dòng)畫、剛體、材質(zhì)、音頻、光電等各種數(shù)學(xué)模型。一個(gè)開(kāi)發(fā)者只需要提供人、物、場(chǎng)景、交互、劇情等配置，系統(tǒng)就能做出一個(gè)交互式的游戲，這種交互式的游戲可以看成是一個(gè)交互式的動(dòng)態(tài)視頻。

　　UE 這類渲染引擎所創(chuàng)造的游戲世界已經(jīng)能夠在某種程度上模擬物理世界，只不過(guò)它是通過(guò)人工數(shù)學(xué)建模及渲染而成，而非通過(guò)模型從數(shù)據(jù)中自我學(xué)習(xí)。而且，它也沒(méi)有和語(yǔ)言代表的認(rèn)知模型連接起來(lái)，因此本質(zhì)上缺乏世界常識(shí)。而 Sora 代表的AI系統(tǒng)有可能避免這些缺陷和局限。

　　04.

　　為什么 Sora 有望成為世界的通用模擬器？

　　不同于 UE 這一類渲染引擎，Sora 并沒(méi)有顯式地對(duì)物理規(guī)律背后的數(shù)學(xué)公式去“硬編碼”，而是通過(guò)對(duì)互聯(lián)網(wǎng)上的海量視頻數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí)，從而能夠在給定一段文字描述的條件下生成不違反物理世界規(guī)律的長(zhǎng)視頻(雖然目前長(zhǎng)度只有一分鐘，但是完全碾壓了此前有數(shù)秒限制的類似競(jìng)品，如曾被熱捧的 Pika 和 Runway)。

　　與 UE 這一類“硬編碼”的物理渲染引擎不同，Sora視頻創(chuàng)作的想象力來(lái)自于它端到端的數(shù)據(jù)驅(qū)動(dòng)，以及跟LLM這類認(rèn)知模型的無(wú)縫結(jié)合。

　　端到端的數(shù)據(jù)驅(qū)動(dòng)更加通用、更方便迭代提升

　　與歷史上所有的數(shù)據(jù)驅(qū)動(dòng)的端到端AI系統(tǒng)一樣，Sora 的優(yōu)勢(shì)是如果數(shù)據(jù)給力，數(shù)據(jù)量足夠大，它可以覆蓋各種各樣的邊界條件下的復(fù)雜度。與之相比，UE 能夠硬編碼的數(shù)學(xué)原理和場(chǎng)景模版畢竟是有限的，更何況很多物理世界的現(xiàn)象，人類還沒(méi)有發(fā)現(xiàn)其背后的數(shù)學(xué)原理。

　　所以很多時(shí)候，UE游戲開(kāi)發(fā)者不得不犧牲用戶體驗(yàn)，或者手工對(duì)某些特殊情況“頭痛醫(yī)頭”地做針對(duì)性專門編碼。比如，由于材質(zhì)和碰撞模型的不完善，大家經(jīng)常看到數(shù)字人直播時(shí)的穿?，F(xiàn)象(手插到肚子里去了)，而要解決穿模問(wèn)題得做很多額外的工作。

　　以迭代完善的角度，對(duì)于數(shù)據(jù)驅(qū)動(dòng)的AI系統(tǒng)，我們只要利用摩爾定律，不停地加大數(shù)據(jù)和算力，系統(tǒng)就會(huì)自動(dòng)越來(lái)越完善。而“硬編碼”的系統(tǒng)則依賴于“人工”的努力和進(jìn)展。

　　與認(rèn)知模型的無(wú)縫融合讓多模態(tài)模型更加通用和魯棒

　　與很多人一樣，我們?yōu)?Sora 視頻的高質(zhì)量所折服，但讓我們真正興奮的是， Sora 類視頻生成模型的架構(gòu)終于向 LLM 的架構(gòu)靠近。

　　比如 Sora 采用 Transformer 作為模型的骨架來(lái)學(xué)習(xí)文本和視頻的關(guān)系以及視頻內(nèi)部的時(shí)空關(guān)系。又比如 Sora 把視頻數(shù)據(jù) token 化。這樣的好處是視頻生成模型能跟 LLM 在模型層面無(wú)縫融合。

　　雖然我們現(xiàn)在無(wú)法判斷 Sora 的訓(xùn)練是否將 LLM 作為起點(diǎn)，然后再加入視頻的模態(tài)繼續(xù)訓(xùn)練。但是幾乎可以肯定的是，未來(lái)的多模態(tài)模型都會(huì)把 LLM 作為起點(diǎn)，從而把 LLM 的認(rèn)知能力遷移到下游的其它模態(tài)里。

　　這既提升了下游模型的智能天花板，也大大降低了下游模型的數(shù)據(jù)需求。筆者多次強(qiáng)調(diào)，這種跨模態(tài)的知識(shí)遷移可能是 LLM 對(duì)AI建模的最大貢獻(xiàn)，已經(jīng)在RT-2、Gemini、出門問(wèn)問(wèn)魔音工坊的語(yǔ)音大模型等很多實(shí)踐中得到證明。

　　為什么LLM的認(rèn)知賦能及其與視頻模型的無(wú)縫融合這么重要?

　　前文提到如果視頻生成模型要成為世界的模擬器，那它生成的視頻必須得符合物理規(guī)律。我們可以從大量的視頻數(shù)據(jù)里學(xué)習(xí)這些規(guī)律，也可以直接繼承語(yǔ)言模型里海量的常識(shí)，而繼承這些常識(shí)會(huì)大大降低對(duì)視頻數(shù)據(jù)的質(zhì)量和數(shù)量的需求，也會(huì)大大降低模型學(xué)習(xí)的難度。

　　比如，如果我們讓 Sora 生成一只杯子掉在地板上的視頻。今天的大語(yǔ)言模型，比如出門問(wèn)問(wèn)的「序列猴子」，就含有玻璃會(huì)碎、水會(huì)濺出等常識(shí)(見(jiàn)下圖)。

　　有了這些常識(shí)，視頻生成模型將不再需要大量的類似玻璃掉地的視頻數(shù)據(jù)來(lái)訓(xùn)練，從而大大降低了生成逼真視頻的難度。語(yǔ)言模型還包含了對(duì)其它物理規(guī)律(比如聲光電、碰撞等)的各種描述。

　　所以，如果 Sora 訓(xùn)練的基礎(chǔ)是一個(gè)語(yǔ)言模型，這個(gè)模型不僅僅處理文本數(shù)據(jù)，而且繼承了對(duì)世界常識(shí)的理解。

　　通過(guò)引入多模態(tài)數(shù)據(jù)處理能力——特別是視頻與文本對(duì)應(yīng)的數(shù)據(jù)——Sora 能夠?qū)崿F(xiàn)更深層次的Grounding，即將語(yǔ)言的虛擬概念與物理世界的具體實(shí)例緊密關(guān)聯(lián)。

　　這種能力使得 Sora 在模擬物理世界時(shí)，能夠更準(zhǔn)確地反映出現(xiàn)實(shí)世界的復(fù)雜性和多樣性。具象的視頻訓(xùn)練數(shù)據(jù)總是有限的，因此模型所能學(xué)到的物理現(xiàn)象總有局限。

　　但語(yǔ)言模型中的物理常識(shí)幾乎是面面俱到的，這是由語(yǔ)言作為思維認(rèn)知模型的本性所決定的。這種知識(shí)遷移彌補(bǔ)了視頻數(shù)據(jù)不可能面面俱到的短板。

　　語(yǔ)言模型是多模態(tài)大模型的核心，必將居于獨(dú)一無(wú)二的中心賦能地位。而「視頻」作為物理世界的映像，是世界模型渲染出來(lái)的結(jié)果。

　　相比語(yǔ)言數(shù)據(jù)，通過(guò)視頻大數(shù)據(jù)學(xué)習(xí)到的模型是“模型的模型” ，同時(shí)學(xué)到了很多物理世界規(guī)律，讓模型更加逼近模擬物理世界。

　　文本與視頻的區(qū)別在于，前者是理解人類的邏輯思維，后者在于理解物理世界。所以，視頻生成模型 Sora 如果能很好跟文本模型 LLM 融合，那它真有望成為世界的通用模擬器。如果有一天，這樣的系統(tǒng)自己通過(guò)模擬駕車場(chǎng)景，學(xué)會(huì)了在城市復(fù)雜的交通環(huán)境下開(kāi)車，我們應(yīng)該也不會(huì)奇怪。

　　我們認(rèn)為，Sora 之所以有潛力成為下一代物理世界模擬器的翹楚，主要?dú)w功于其基于多模態(tài)大模型的設(shè)計(jì)理念及其實(shí)現(xiàn)中巨大算力和工程能力。

　　Sora 在視頻賽道重現(xiàn) ChatGPT 式的成功，很可能得力于其把虛擬世界的模型(LLM)落地到具象化的物理世界模型(視頻生成)，如果現(xiàn)在不是這樣，將來(lái)也大概率是。

　　能生成世界，就意味著理解世界？

　　類比語(yǔ)言模型，面對(duì)ChatGPT的對(duì)答如流、通情達(dá)理，我們反思語(yǔ)言模型到底是否學(xué)會(huì)了“思維”和“理解”?

　　雖然尚無(wú)法從原理上解釋，但從結(jié)果上看，它與基于對(duì)語(yǔ)言的深刻理解所呈現(xiàn)出來(lái)的行為是一致的，我們可以認(rèn)為它其實(shí)已經(jīng)學(xué)會(huì)了虛擬世界的“思維”和“理解”;那今天的 Sora 已經(jīng)可以在長(zhǎng)時(shí)空的范圍里生成不違反物理規(guī)律和常識(shí)的視頻，我們是否也可以認(rèn)為，它已經(jīng)理解了物理世界?它具備了世界模型的能力?

　　模擬物理世界，Sora 是唯一解法嗎？

　　如果 Sora 深度融合 LLM (如 ChatGPT)被認(rèn)知智能充分賦能，它的確有望成為「世界的模擬器」。除此之外，還有其他成為世界模擬器的可能性解法嗎?另外一種可能是：ChatGPT + UE。

　　如果我們能把自然語(yǔ)言模型(如 ChatGPT)與物理渲染引擎(如 UE)結(jié)合起來(lái)，把自然語(yǔ)言模型的描述轉(zhuǎn)換成 UE 的描述語(yǔ)言，然后由 UE 來(lái)渲染出視頻，是不是也意味著一個(gè)可行的物理世界模擬器?

　　在很多對(duì)通用性的要求不那么高的場(chǎng)景中，這可能是優(yōu)于 Sora 這種端到端模型的選擇，估計(jì)未來(lái)很快會(huì)看到這樣的嘗試。但是，UE的天花板就是整個(gè)系統(tǒng)的天花板。

　　另外一個(gè)相關(guān)話題，Sora 的訓(xùn)練可能用了 UE 合成的數(shù)據(jù)，但 Sora 模型本身應(yīng)該沒(méi)有調(diào)用 UE 的能力。

　　05.

　　從虛擬到物理，如果世界皆可被模擬，什么是現(xiàn)實(shí)？

　　如果說(shuō)這個(gè)世界（無(wú)論是虛擬世界還是物理世界），其背后存在著簡(jiǎn)單的規(guī)律和模型，那么文本和視頻等模態(tài)就是這些規(guī)律的具體呈現(xiàn)，也可以說(shuō)是渲染。

　　OpenAI 的 ChatGPT 和 Sora 通過(guò)互聯(lián)網(wǎng)上海量的自然的文本和視頻數(shù)據(jù)，“隱式”地學(xué)會(huì)了這些數(shù)據(jù)背后的規(guī)律和模型。那么，未來(lái)是否有一天，ChatGPT 和 Sora 之類的系統(tǒng)還將融合味覺(jué)、觸覺(jué)等其他模態(tài)，從而可以模擬我們的整個(gè)世界呢?

　　如果這一天到來(lái)，什么是現(xiàn)實(shí)呢?我們是否還那么堅(jiān)定地相信我們這個(gè)物理世界不是被模擬出來(lái)的?科幻電影所描述的世界是否仍是科幻呢?這是現(xiàn)代版的莊周夢(mèng)蝶，古老的哲學(xué)思辨在后現(xiàn)代的技術(shù)浪潮中再度沖擊我們的信仰，細(xì)思有點(diǎn)恐。

　　展開(kāi)想象，為什么AI模擬器不可以模擬巴以沖突、中美關(guān)系，模擬人類從山頂洞走向農(nóng)耕文明的過(guò)程呢?「世界模擬器」通過(guò)模擬不同的事件和情景，預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)，或可輔助決策制定。Sora 類不僅能夠模擬政治經(jīng)濟(jì)、人類社會(huì)等宏觀層面的動(dòng)態(tài)，也應(yīng)該可以深入到病毒傳播、交通規(guī)劃等微觀領(lǐng)域。這一切最終是否會(huì)改變各種學(xué)科研究的方式?

　　我們可以展望，AI 有能力通過(guò)模擬學(xué)會(huì)各種物理世界的技能。比如城市駕駛，AI 可以從文本里學(xué)到各種駕駛規(guī)則，自己渲染一些交通視頻場(chǎng)景并在這些場(chǎng)景里學(xué)習(xí)提升，從而學(xué)會(huì)基本駕駛技能。當(dāng)然，模型最后還是會(huì)有真正物理環(huán)境下的Fine Tuning。如果機(jī)器人能夠自主學(xué)習(xí)各種技能，這是否也會(huì)改變機(jī)器人服務(wù)世界的發(fā)展路徑?

　　總之，如果未來(lái)的 AI 既理解了人類思維，又理解了物理世界，而且還不知疲倦自主模擬學(xué)習(xí)，下一步將會(huì)“涌現(xiàn)”怎樣的斑斕世界?人類如何自處?

　　06.

　　暴力美學(xué)能抵達(dá) AGI 嗎？

　　回看OpenAI的最初勝利，主要并非算法上的創(chuàng)新，而是「暴力美學(xué)」的勝利。

　　如今，以GPT為代表的「暴力美學(xué)」已成為工業(yè)界凝聚了共識(shí)的做 AI 的方法論：把模型架構(gòu)做得簡(jiǎn)簡(jiǎn)單單，但足夠通用，然后把精力放在猛搞數(shù)據(jù)和算力上。

　　這一次 Sora 的成功延續(xù)了 OpenAI 的暴力美學(xué)的套路。把 Diffusion Model 里的 Unet 換成 Transformer、把視頻的時(shí)空 Patch 轉(zhuǎn)換成 Token 等之類的想法應(yīng)該很多人拍腦袋都能想到，都是對(duì)模型的簡(jiǎn)化從而更便于 Scale Up。但是，能夠堅(jiān)信這些簡(jiǎn)單的 ideas、并有能力和有條件把規(guī)模真正做上去修成正果的卻是鳳毛麟角。

　　OpenAI 這次關(guān)于 Sora 的技術(shù) blog 里的兩段話，把這種信念的力量體現(xiàn)得淋漓盡致。

　　“These capabilities suggest that continued scaling of video models is a promising path towards the development of highly-capable simulators of the physical and digital world, and the objects, animals and people that live within them.”

　　“We find that video models exhibit a number of interesting emergent capabilities when trained at scale. These capabilities enable Sora to simulate some aspects of people, animals and environments from the physical world. These properties emerge without any explicit inductive biases for 3D, objects, etc.—they are purely phenomena of scale.”

　　第一段話表達(dá)了他們對(duì) Scaling 的信念，而第二段話強(qiáng)調(diào)了 Scaling 導(dǎo)致涌現(xiàn)的實(shí)證。

　　這次 Sora 的發(fā)布又讓很多人對(duì) AGI 的實(shí)現(xiàn)更加樂(lè)觀了，可能也讓心高氣盛的 OpenAI 對(duì) Scaling Law 和暴力美學(xué)的信念進(jìn)一步堅(jiān)定。但是，沿著 Scaling Law 和暴力美學(xué)一定能抵達(dá) AGI 嗎?面對(duì)飛速發(fā)展的AI科技，也許只能拷問(wèn)自己，到底是因?yàn)榭匆?jiàn)而相信，還是因?yàn)橄嘈哦匆?jiàn)?

　　可以肯定的是，Sora 如果真能實(shí)現(xiàn)對(duì)物理世界的模擬、能夠跟 LLM 代表的虛擬世界無(wú)縫融合，那它必然是通往 AGI 路上的里程碑。

　　結(jié)語(yǔ)

　　當(dāng)我們回到人類文明的前夜，從用石頭砸開(kāi)堅(jiān)果，從山洞走向茅屋，一一回望人類最早的科技成就——石制工具、火、衣服、長(zhǎng)矛和弓箭是如何被發(fā)明的。正是有了讓能力邊界不斷延伸的它們，人類才得以走出非洲。

　　其中最重要的一項(xiàng)能力——語(yǔ)言能力，它使現(xiàn)代智人能有效傳遞信息，不斷完成物理世界的任務(wù)，最終將尼安德特人趕到比利牛斯半島的盡頭，成為世界主人。

　　而今天，掌握人類語(yǔ)言的AI，將能進(jìn)一步地通過(guò)視頻生成模擬世界，面向我們?yōu)橹杠S的 AGI 時(shí)刻，是否已是另一種文明的前夜?

商學(xué)院

Open Talk

為什么說(shuō) Sora 是世界的模擬器？

相關(guān)閱讀