用生成的數(shù)據(jù)集訓(xùn)練未來(lái)幾代機(jī)器學(xué)習(xí)模型可能會(huì)導(dǎo)致“模型崩潰”。
多知8月2日消息,據(jù)研究公司Epoch AI預(yù)測(cè),人類生成的公開(kāi)文本數(shù)據(jù)的總有效存量約為300萬(wàn)億tokens。至2028年,互聯(lián)網(wǎng)上的所有高質(zhì)量文本數(shù)據(jù)或?qū)⒈幌?shù)使用完畢,而機(jī)器學(xué)習(xí)所依賴的高質(zhì)量語(yǔ)言數(shù)據(jù)集,其枯竭的時(shí)間點(diǎn)甚至可能提前至2026年。
為了在 2028 年之后保持當(dāng)前的進(jìn)展速度,開(kāi)發(fā)或改進(jìn)替代數(shù)據(jù)源(如合成數(shù)據(jù))似乎至關(guān)重要。盡管挑戰(zhàn)仍然存在,但這些挑戰(zhàn)可以使機(jī)器學(xué)習(xí)繼續(xù)擴(kuò)展到公共文本之外。不過(guò),研究人員指出,用生成的數(shù)據(jù)集訓(xùn)練未來(lái)幾代機(jī)器學(xué)習(xí)模型可能會(huì)導(dǎo)致“模型崩潰”。
不過(guò),也有觀點(diǎn)認(rèn)為,在語(yǔ)言模型的細(xì)分領(lǐng)域內(nèi),仍有一片未被充分探索的數(shù)據(jù)藍(lán)海,蘊(yùn)藏著豐富的差異化信息,等待著被挖掘利用。