AI編校能夠提高效率、擴(kuò)大產(chǎn)能。

果麥文化:AI編??商娲袠?biāo)準(zhǔn)化答案的工作,預(yù)計(jì)兩年內(nèi)做到錯(cuò)誤率十萬分之一

2023-06-01 10:46:46發(fā)布         

  多知網(wǎng)6月1日消息,最近果麥文化進(jìn)行了投資者活動(dòng),提到編校是行業(yè)痛點(diǎn),而AI編校能夠提高效率、擴(kuò)大產(chǎn)能,目前已經(jīng)做出了AI編校Demo。

  果麥文化提到,出版行業(yè)成本由高至低分別為紙張和印刷、作者版稅、編校。編校是出版行業(yè)第三大成本來源,公司每年耗費(fèi)千萬元用于編校,依舊無法解決編校難的問題。AI編校能夠提高效率、擴(kuò)大產(chǎn)能。

  果麥文化有自己的研發(fā)部門,過去基于規(guī)則做編校相關(guān)的產(chǎn)品,但效果不理想。2022年,公司利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和通用大模型進(jìn)行嘗試之后,發(fā)現(xiàn)其能夠解決過去基于規(guī)則不能解決的問題。去年做的小demo效果比較好,有信心基于通用大模型/自然語言處理去解決行業(yè)痛點(diǎn)。

  果麥文化進(jìn)一步表示,目前國家標(biāo)準(zhǔn)是錯(cuò)誤率萬分之一,AI編校達(dá)到千分之一就可以達(dá)成一個(gè)普通人的編校工作,預(yù)計(jì)在未來兩年可以做到十萬分之一,能100%解決問題。

  在果麥文化看來,ChatGPT4立足于海量數(shù)據(jù)的基礎(chǔ)上,對于原始已存在的錯(cuò)誤,可能無法正確識別。而AI編校不會(huì)被超大模型覆蓋掉,出版行業(yè)不是夕陽產(chǎn)業(yè),2024年至2030年,預(yù)測會(huì)呈現(xiàn)穩(wěn)步增長趨勢。AI編校能夠提高效率,擴(kuò)大產(chǎn)能,以往大部分編輯都在做編校工作,而不是創(chuàng)造性的工作。

  果麥文化還透露,已經(jīng)積累了7900萬左右的互聯(lián)網(wǎng)用戶,2020年下半年開始進(jìn)行直播帶貨賣書,抖音十大讀書賬號果麥占據(jù)半壁江山(易中天、戴建業(yè)、小嘉啊、好書博物館等)。

  2019-2022年果麥To C收入占總收入比重分別約2%、10%、14%和18%,2023年Q1達(dá)到了24%。To C可以直接跟用戶做交易,沒有應(yīng)收賬款,顯著提升的To C收入占比改變了果麥的銷售模式,毛利率從2020年46%逐年上升,2023年Q1毛利率超過50%。從2014年到2019年,毛利率穩(wěn)步上升,已經(jīng)初步完成互聯(lián)網(wǎng)改造。

  關(guān)于AI編校的問答:

  Q1:在校對錯(cuò)誤中,AI編校能解決好哪些類型?哪些類型解決不夠好以及怎么提升?

  1)校對錯(cuò)誤一般四種:錯(cuò)別字,語義錯(cuò)誤,事實(shí)性錯(cuò)誤,敏感詞錯(cuò)誤。

  2)對于事實(shí)性錯(cuò)誤和敏感詞錯(cuò)誤,AI大模型做得比較好。

  3)語義錯(cuò)誤:大模型基于全網(wǎng)去抓中文語料,往往被普通人的語言水平所影響,這個(gè)是未來重點(diǎn)要攻克的方向。

  4)未來AI編校主要集中在語義錯(cuò)誤上,在這類錯(cuò)誤識別上去提高精度。

  Q2:校對事實(shí)類錯(cuò)誤和錯(cuò)別字會(huì)同步進(jìn)行嗎?

  中文具有模糊性的特征,有些錯(cuò)別字需要結(jié)合具體語境去判斷。結(jié)合全文理解文字、識別錯(cuò)別字、校對事實(shí)錯(cuò)誤這三件事在難度上一致,而目前基于規(guī)則的模型都做不到,因此需要大模型或神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。

  Q3:為什么會(huì)投資AI編校?

  1)編校是行業(yè)痛點(diǎn),公司為此付出了很多人力成本。

  2)公司前期嘗試過AI編校,并且果麥也有自己的研發(fā)部門,過去基于規(guī)則做了編校相關(guān)的產(chǎn)品,但效果不理想;2022年,利用通用大模型進(jìn)行初次嘗試后,有所突破,所以決定投資這個(gè)賽道。

  Q4:AI編校能做哪些相關(guān)工作?

  公司內(nèi)部主要是使用“十維數(shù)據(jù)分析系統(tǒng)”在輔助工作,目前AI編校做的主要工作是:替代有標(biāo)準(zhǔn)化答案的工作,譬如,在編輯日常工作過里的文字標(biāo)點(diǎn)符號錯(cuò)誤、事實(shí)錯(cuò)誤等,都可以通過AI編校模型去替代。