AI動(dòng)態(tài) | 視頻擴(kuò)展模型、游戲AI引擎、多模態(tài)大模型、AI原生地圖

2024-03-22 09:44:40發(fā)布來(lái)源：多知網(wǎng) 作者：Charles

　　*Meta發(fā)布SceneScript

　　*騰訊發(fā)布自家研發(fā)的游戲AI引擎GiiNEX

　　*快手自主研發(fā)大型模型“快意”在綜合性能方面超越了GPT-3.5

　　*淘寶天貓集團(tuán)推出了自家研發(fā)的大型模型“淘寶星辰”

　　*谷歌多模態(tài)大模型Gemini 1.5 Pro推出API

　　*香港中文大學(xué)、上海AI實(shí)驗(yàn)室和商湯科技共同推出MOTIA的視頻擴(kuò)展模型

　　*百度地圖宣布其“AI向?qū)?rdquo;用戶規(guī)模累計(jì)破億

　　*多模態(tài)大模型公司「若愚科技」完成超5000萬(wàn)天使輪融資

　　1、Meta發(fā)布SceneScript，利用自回歸結(jié)構(gòu)化語(yǔ)言模型重建場(chǎng)景

　　據(jù)了解，該方法采用場(chǎng)景語(yǔ)言編碼器-解碼器架構(gòu)，能夠直接從編碼的視覺(jué)數(shù)據(jù)中推斷出一組結(jié)構(gòu)化的語(yǔ)言命令。

　　為了訓(xùn)練SceneScript，作者生成并發(fā)布了一個(gè)大規(guī)模的合成數(shù)據(jù)集，名為Aria Synthetic Environments，其中包含10萬(wàn)個(gè)高質(zhì)量的室內(nèi)場(chǎng)景。這些場(chǎng)景具有以自我中心場(chǎng)景漫游的真實(shí)感，并且地面有真實(shí)標(biāo)注的渲染圖像。

　　2、騰訊發(fā)布自家研發(fā)的游戲AI引擎GiiNEX

　　2024年的全球游戲開發(fā)者大會(huì)上，騰訊發(fā)布了自家研發(fā)的游戲AI引擎GiiNEX，該引擎利用大型模型和生成式AI技術(shù)，針對(duì)AINPC、場(chǎng)景制作、內(nèi)容生成等方面提供了多樣化的AIGC能力，包括2D圖像、3D城市和劇情等。這一引擎有助于開發(fā)者提高高質(zhì)量?jī)?nèi)容生成的效率。此外，GiiNEX還將決策AI技術(shù)應(yīng)用于游戲研發(fā)測(cè)試和模擬玩法等方面。

　　3、快手自主研發(fā)大型模型“快意”在綜合性能方面超越了GPT-3.5

　　快手自主研發(fā)的大型模型“快意”在綜合性能方面已顯著超越了GPT-3.5，公司有信心在未來(lái)半年內(nèi)達(dá)到GPT-4的水平?？焓钟?jì)劃將生成模型與生產(chǎn)者工具相結(jié)合，幫助創(chuàng)作者降低創(chuàng)作門檻，提高短視頻制作的質(zhì)量和效率。

　　4、淘寶天貓集團(tuán)推出了自家研發(fā)的大型模型“淘寶星辰”

　　淘寶天貓集團(tuán)推出了自家研發(fā)的大型模型“淘寶星辰”，該模型已經(jīng)在官網(wǎng)上線，成為該集團(tuán)首個(gè)公開的自研大型模型。

　　星辰大模型基于Transformer架構(gòu)，使用半自研的Megatron-ama框架進(jìn)行訓(xùn)練，通過(guò)學(xué)習(xí)海量電商消費(fèi)數(shù)據(jù)和公開數(shù)據(jù)，提供增強(qiáng)電商和生活服務(wù)場(chǎng)景的文案生成、多輪會(huì)話、知識(shí)問(wèn)答和智能決策等功能。

　　淘寶星辰大模型是以電商和生活服務(wù)為主要適用場(chǎng)景。提供商品文案編寫、商品商家運(yùn)營(yíng)、商品數(shù)據(jù)分析、市場(chǎng)營(yíng)銷策略等經(jīng)營(yíng)場(chǎng)景下的智能服務(wù)。

　　5、谷歌多模態(tài)大模型Gemini 1.5 Pro推出API

　　谷歌向開發(fā)人員提供Gemini 1.5 Pro的API支持，鼓勵(lì)開發(fā)人員利用這一強(qiáng)大工具構(gòu)建產(chǎn)品。Gemini 1.5 Pro模型具有出色的多模態(tài)處理能力，開創(chuàng)新可能性。此舉引發(fā)了蘋果內(nèi)部考慮將Gemini引入iPhone軟件的討論，可能引發(fā)AI領(lǐng)域的變革。

　　6、香港中文大學(xué)、上海AI實(shí)驗(yàn)室和商湯科技共同推出MOTIA的視頻擴(kuò)展模型

　　據(jù)了解，該視頻擴(kuò)展模型利用源視頻的固有數(shù)據(jù)特定模式和圖像/視頻生成，有效實(shí)現(xiàn)視頻擴(kuò)展。MOTIA的主要階段包括輸入特定調(diào)整和模式感知擴(kuò)展。提出了額外的策略，包括空間感知插入和噪聲傳播，以更好地利用擴(kuò)散模型的生成先驗(yàn)和從源視頻中獲取的視頻模式。

　　7、百度地圖宣布AI原生地圖“AI向?qū)?rdquo;用戶規(guī)模累計(jì)破億

　　全球首個(gè)AI原生地圖——百度地圖宣布其“AI向?qū)?rdquo;用戶規(guī)模累計(jì)破億，日均提供超千萬(wàn)次對(duì)話。這是自2023年10月17日百度世界大會(huì)首發(fā)“AI向?qū)?rdquo;以來(lái)，百度地圖第一次披露該業(yè)務(wù)相關(guān)數(shù)據(jù)。

　　百度地圖“AI向?qū)?rdquo;成為繼文心一言之后，國(guó)內(nèi)又一個(gè)宣布用戶破億的大模型產(chǎn)品。

　　8、多模態(tài)大模型公司「若愚科技」完成超5000萬(wàn)天使輪融資

　　本輪融資由東方精工領(lǐng)投，昆仲資本跟投，源合資本擔(dān)任獨(dú)家融資顧問(wèn)。公司稱，資金將主要用于產(chǎn)品研發(fā)，業(yè)務(wù)拓展以及團(tuán)隊(duì)搭建等方面。

　　公開資料顯示，若愚科技是一支源自哈工大的團(tuán)隊(duì)，創(chuàng)立于2023年，旨在通過(guò)多模態(tài)大模型技術(shù)打造機(jī)器人大腦。在基座模型方面，目前若愚打造了自研的多模態(tài)大模型——若愚·九天，據(jù)介紹，九天大模型可以支持文本、圖片、音頻、視頻多模態(tài)輸入和輸出。目前，若愚·九天多模態(tài)大模型已經(jīng)在垂直領(lǐng)域進(jìn)行了細(xì)分應(yīng)用，也針對(duì)機(jī)器人應(yīng)用場(chǎng)景進(jìn)行了專門的訓(xùn)練。

商學(xué)院

Open Talk

AI動(dòng)態(tài) | 視頻擴(kuò)展模型、游戲AI引擎、多模態(tài)大模型、AI原生地圖

相關(guān)閱讀

商學(xué)院

Open Talk

AI動(dòng)態(tài) | 視頻擴(kuò)展模型、游戲AI引擎、多模態(tài)大模型、AI原生地圖

相關(guān)閱讀

AI動(dòng)態(tài) | 視頻擴(kuò)展模型、游戲AI引擎、多模態(tài)大模型、AI原生地圖