Epoch AI：2028年互聯(lián)網(wǎng)上所有高質(zhì)量文本數(shù)據(jù)將被使用完畢

2024-08-02 13:32:42發(fā)布來(lái)源：多知網(wǎng) 作者：哆啦

　　多知8月2日消息，據(jù)研究公司Epoch AI預(yù)測(cè)，人類(lèi)生成的公開(kāi)文本數(shù)據(jù)的總有效存量約為300萬(wàn)億tokens。至2028年，互聯(lián)網(wǎng)上的所有高質(zhì)量文本數(shù)據(jù)或?qū)⒈幌?shù)使用完畢，而機(jī)器學(xué)習(xí)所依賴(lài)的高質(zhì)量語(yǔ)言數(shù)據(jù)集，其枯竭的時(shí)間點(diǎn)甚至可能提前至2026年。

截屏2024-08-02 10.02.24.png

　　為了在 2028 年之后保持當(dāng)前的進(jìn)展速度，開(kāi)發(fā)或改進(jìn)替代數(shù)據(jù)源(如合成數(shù)據(jù))似乎至關(guān)重要。盡管挑戰(zhàn)仍然存在，但這些挑戰(zhàn)可以使機(jī)器學(xué)習(xí)繼續(xù)擴(kuò)展到公共文本之外。不過(guò)，研究人員指出，用生成的數(shù)據(jù)集訓(xùn)練未來(lái)幾代機(jī)器學(xué)習(xí)模型可能會(huì)導(dǎo)致“模型崩潰”。

　　不過(guò)，也有觀點(diǎn)認(rèn)為，在語(yǔ)言模型的細(xì)分領(lǐng)域內(nèi)，仍有一片未被充分探索的數(shù)據(jù)藍(lán)海，蘊(yùn)藏著豐富的差異化信息，等待著被挖掘利用。

商學(xué)院

Open Talk

Epoch AI：2028年互聯(lián)網(wǎng)上所有高質(zhì)量文本數(shù)據(jù)將被使用完畢

相關(guān)閱讀