共提出21項具體措施。
多知網(wǎng)5月16日消息,據(jù)北京市政府網(wǎng)站消息,北京市科委、中關(guān)村管委會制定了《北京市促進通用人工智能創(chuàng)新發(fā)展的若干措施(2023-2025年)(征求意見稿)》,其中表示針對目前大模型訓(xùn)練高質(zhì)量中文語料占比過少,不利于中文語境表達及產(chǎn)業(yè)應(yīng)用的問題,整合現(xiàn)有開源中文預(yù)訓(xùn)練數(shù)據(jù)集和高質(zhì)量互聯(lián)網(wǎng)中文數(shù)據(jù)并進行合規(guī)清洗。同時持續(xù)擴展高質(zhì)量多模態(tài)數(shù)據(jù)來源,建設(shè)合規(guī)安全的中文、圖文對、音頻、視頻等大模型預(yù)訓(xùn)練語料庫,通過北京國際大數(shù)據(jù)交易所社會數(shù)據(jù)專區(qū)進行定向有條件開放。
征求意見稿指出,將新增算力建設(shè)項目納入算力伙伴計劃,加快推動海淀區(qū)“北京人工智能公共算力平臺”,朝陽區(qū)“北京數(shù)字經(jīng)濟算力中心”等項目建設(shè)。加快推動數(shù)據(jù)要素高水平開放的“國家數(shù)據(jù)基礎(chǔ)制度先行先試示范區(qū)”建設(shè),爭創(chuàng)國家級數(shù)據(jù)訓(xùn)練基地,提升北京人工智能數(shù)據(jù)標注庫規(guī)模和質(zhì)量。
在探索通用人工智能路徑方面,征求意見稿表示,圍繞大型語言模型構(gòu)建、訓(xùn)練、調(diào)優(yōu)對齊、推理部署等全流程,支持開展創(chuàng)新算法及核心技術(shù)研究,形成完整高效的訓(xùn)練體系并對外開源。探索多模態(tài)通用模型架構(gòu),研究大模型高效并行訓(xùn)練技術(shù),以及邏輯和知識推理、指令學(xué)習(xí)、人類意圖對齊等調(diào)優(yōu)方法,研發(fā)支持百億參數(shù)模型推理的高效壓縮技術(shù)。從“采、存、管、研、用”五個方面,研發(fā)包含數(shù)據(jù)采集、清洗、標注、脫敏、存儲等功能在內(nèi)的數(shù)據(jù)處理工具。
構(gòu)建多模態(tài)多維度的基礎(chǔ)模型評測基準及評測方法。建立基礎(chǔ)模型評測工具集,提供適應(yīng)性的工具進行評測。研發(fā)適用于模型訓(xùn)練場景的新一代人工智能編譯器,實現(xiàn)算子自動生成和自動優(yōu)化,推動人工智能芯片與框架的廣泛適配。研發(fā)人工智能芯片評測系統(tǒng),實現(xiàn)多芯片多框架的自動化評測。
征求意見稿表示,鼓勵并組織來自不同學(xué)科的專業(yè)人員標注通用人工智能模型訓(xùn)練數(shù)據(jù)及指令數(shù)據(jù),提高訓(xùn)練數(shù)據(jù)的多樣性;鼓勵優(yōu)先采用安全可信的軟件、工具、計算和數(shù)據(jù)資源,通過改進算法等技術(shù)手段,確保訓(xùn)練數(shù)據(jù)集的規(guī)范性;鼓勵生成式人工智能產(chǎn)品在科研等非面向公眾服務(wù)領(lǐng)域?qū)崿F(xiàn)向上向善應(yīng)用。
此外,為了持續(xù)提升人工智能產(chǎn)業(yè)倫理治理自律自治能力,將研發(fā)并部署人工智能倫理治理公共服務(wù)平臺,服務(wù)政府監(jiān)管與產(chǎn)業(yè)自律自治,強化相關(guān)責(zé)任主體科技倫理規(guī)范意識,提升科技倫理治理能力。