“在還不能保證數(shù)據(jù)的準(zhǔn)確的情況下,不輕易把不成熟的數(shù)據(jù)反饋到教學(xué)環(huán)節(jié)中去?!?/p>

延安中考判卷失誤背后,機器閱卷市場比拼的不僅僅是技術(shù)

2018-08-03 10:36:26發(fā)布     來源:多知網(wǎng)    作者:黎珊  

  文| 黎珊

  近日,延安發(fā)生的機器判卷失誤事件引發(fā)了社會廣泛的關(guān)注。

  今年延安中考成績公布后,一位延安市子長縣考生家長發(fā)現(xiàn),“網(wǎng)上公布的英語分?jǐn)?shù)與孩子平時的成績和預(yù)故估分?jǐn)?shù)差距很大?!痹诼?lián)系學(xué)校后,這位家長發(fā)現(xiàn)有同樣疑惑的家長不在少數(shù),一個班甚至整個學(xué)校的考生出現(xiàn)類型情況。

  臨近中考填報志愿截止日期,在上訪過后,部分家長接到延安市考試管理中心工作人員的電話,稱“準(zhǔn)確的成績將重新公布”。

  而重新公布的成績,不少考生的分?jǐn)?shù)出現(xiàn)了較大偏差,兩次對比少則相差幾分,多則相差二三十分。

  最終公示的復(fù)查結(jié)果是,在2018年參加中考的21108名考生中,英語客觀題評分差錯率3252例。

  “這么重要的考試,出現(xiàn)這么大的失誤。而且出了錯誤,這么草率的處理。”包括不少考生家長在內(nèi),社會輿論對本次考試操作提出了強烈的質(zhì)疑。

  那為什么這次延安在中考這么重要的考試中,會發(fā)生如此重大的判卷失誤?

      大型考試機器判卷失誤概率較低,設(shè)備和過程管理是兩個關(guān)鍵

  目前,針對大型考試,我國普遍實行網(wǎng)絡(luò)閱卷方式。

  網(wǎng)上閱卷,準(zhǔn)確說指用電子掃描及網(wǎng)絡(luò)技術(shù),對客觀題自動閱卷,對主觀題進(jìn)行網(wǎng)上評卷的閱卷系統(tǒng)?!跋到y(tǒng)+設(shè)備”,構(gòu)成了網(wǎng)絡(luò)閱卷的應(yīng)用場景。一套高速掃描儀每分鐘掃描近100頁,每臺掃描儀對應(yīng)一套掃描識別軟件,對試卷進(jìn)行數(shù)據(jù)采集。

  針對客觀題,網(wǎng)上閱卷過程更多是自動化的,掃描儀掃描卷面(答題卡區(qū)域)內(nèi)容,對客觀題選項進(jìn)行自動識別并通過系統(tǒng)進(jìn)行判分;對于主觀題,閱卷系統(tǒng)對卷面進(jìn)行圖像電子化后,判分環(huán)節(jié)終歸是人工閱卷的方式。

  基于兩者的差異,“雖然都客觀題評判是自動化的。但一定程度上來說,主觀題的閱卷準(zhǔn)確率可能要高于客觀題?!庇袑I(yè)人士對多知網(wǎng)表示。

  以主觀題——高考語文作文為例,目前主要是電腦閱卷方式。通過掃描將卷面圖像錄入電腦,每篇作文由兩位評卷員進(jìn)行評閱,如果兩人給出的分?jǐn)?shù),評分誤差大于規(guī)定分值,就交由第三方進(jìn)行評閱,如果誤差仍然大于規(guī)定分值,將由學(xué)科評卷組組長進(jìn)行評閱,直到分值達(dá)到誤差允許范圍,評分才算合格。

  這樣的過程管理使得主觀題閱卷能夠做到盡可能公正且準(zhǔn)確。

  但由于客觀題并不需要人工判卷,就難以通過人工方式對評判進(jìn)行比對復(fù)查。閱卷的準(zhǔn)確性主要依賴系統(tǒng)及設(shè)備的穩(wěn)定性,以及人工操作的標(biāo)準(zhǔn)性。

  從追責(zé)結(jié)果就能看出,設(shè)備問題成為其閱卷失誤的關(guān)鍵所在。

  此次為延安市中考提供閱卷技術(shù)服務(wù)的第三方西安冠宇信息科技有限公司對此次事件的解釋是:失誤屬于機械故障,由于走紙系統(tǒng)磨損,導(dǎo)致掃描圖案變形。

  那么對于此類問題,有辦法進(jìn)行規(guī)避嗎?

  在中高考分?jǐn)?shù)評判的流程中,設(shè)計了相應(yīng)的環(huán)節(jié)對此類問題進(jìn)行規(guī)避。比如,在設(shè)備采購時需審核機器的穩(wěn)定性;正式閱卷之前,進(jìn)行預(yù)測演練;評分過后,有相應(yīng)的抽查機制。此外,各地教育考試機構(gòu)都安排了考生卷面分?jǐn)?shù)復(fù)查申請的環(huán)節(jié),復(fù)查內(nèi)容為各科答題卡是否存在漏評、總分漏記、錯記等。

  這樣的復(fù)查流程設(shè)計主要是為了規(guī)避針對客觀題閱卷可能出現(xiàn)的問題。

  除了在流程的設(shè)計上盡量做到萬無一失。對提供閱卷服務(wù)的第三方技術(shù)公司的合理篩選,也成為保證考試閱卷準(zhǔn)確性的關(guān)鍵。

  根據(jù)天眼查的搜索信息顯示,西安冠宇信息科技有限公司曾經(jīng)歷兩起勞動爭議的法律訴訟,并被西安市雁塔區(qū)人民法院納入失信被執(zhí)行人名單。在對此次事件的調(diào)查采訪中,有記者問及“是否了解西安冠宇信息科技有限公司有失信記錄”及“為什么在兩年前更換對服務(wù)企業(yè)進(jìn)行更換”時,延安市考試管理中心相關(guān)人員并沒有給出正面回答。

  從閱卷服務(wù)商的選擇,到閱卷過程的管理,任何一個環(huán)節(jié)的差池都有可能導(dǎo)致分?jǐn)?shù)的失誤。而像中高考這樣的大型考試,經(jīng)不起這樣的失誤。這就對提供閱卷及相關(guān)服務(wù)的行業(yè)參與者提出了更多要求。

  至于這次類似事件,假設(shè)在執(zhí)行層面的過程管控更加嚴(yán)格,也是可以避免的。

  實際上,這類傳統(tǒng)的針對考試提供的機器閱卷服務(wù),并不算新興技術(shù)。

  在近20年的時間中,圍繞網(wǎng)絡(luò)閱卷技術(shù)誕生了一大批考試服務(wù)公司。市場競爭激烈,但其競爭的關(guān)鍵不在于技術(shù)的先進(jìn)性,而更多在其對過程管理的把控能力。

  “一般大型考試,由于其考試模式固定,答題紙質(zhì)量較好,對閱卷技術(shù)的要求并不算太高,這類閱卷技術(shù)發(fā)展已趨于成熟,在全國也得到大規(guī)模的推廣?!币粯I(yè)內(nèi)人士對多知網(wǎng)表示。

  在延安事件中,其考試管理中心主任在接受采訪時就有表示,當(dāng)時工作人員并未發(fā)現(xiàn)掃描異常情況。如果工作人員及時發(fā)現(xiàn),會停下來進(jìn)行重新掃描。

  這意味著,有效的過程管理一定程度上規(guī)避這類問題。比如增設(shè)應(yīng)急的設(shè)備,加強實操人員培訓(xùn),通過流程化的方式降低閱卷失誤風(fēng)險。

      機器閱卷第二代產(chǎn)品自動批改,將面臨更多的挑戰(zhàn)

  隨著技術(shù)的成熟,提供備考解決方案供應(yīng)商越來越多。這個市場上,根據(jù)產(chǎn)品和參與方不同,基本劃分出了幾個不同的層次:第一種是用于中考高考的機器閱卷產(chǎn)品,也是目前應(yīng)用最廣泛的批改產(chǎn)品,這也是對技術(shù)要求相對比較低的一類產(chǎn)品。

  另一種則是升級版的批改產(chǎn)品。這類產(chǎn)品已經(jīng)不再簡單關(guān)注閱卷,而是將使用場景轉(zhuǎn)移到日常教學(xué)中。其目標(biāo)不在形成考試終結(jié)型報告,而是將“閱卷”作為切入點,通過自動批改對學(xué)校教與學(xué)的數(shù)據(jù)進(jìn)行采集,從而為精準(zhǔn)教學(xué)和自適應(yīng)學(xué)習(xí)提供依據(jù)。

  對于學(xué)校日常教與學(xué)的數(shù)據(jù)采集,涉及到學(xué)習(xí)過程的方方面面,如果不是好的產(chǎn)品落地,對學(xué)校、教師及學(xué)生的將會帶來不可逆的“傷害”。

  “孩子的時間是不可逆的,不管是考試成績,還是學(xué)習(xí)的過程性評價,教育成本不可承受?!币晃焕蠋熢u價。所以,二代批改產(chǎn)品的要求比一代閱卷產(chǎn)品的要求要高出很多。

  因此,新一代通過閱卷技術(shù)進(jìn)行探索的企業(yè)也面臨多個方面的挑戰(zhàn)。

  首先,通過閱卷采集數(shù)據(jù),保證準(zhǔn)確率是最基本的底線。這要求企業(yè)對大量不同的閱卷場景進(jìn)行摸索,同時,在探索的過程中,盡量要做到不影響學(xué)校的日常教學(xué)。比如,課間作業(yè)數(shù)據(jù)采集,只能抓緊利用課間10分鐘進(jìn)行處理,并及時將作業(yè)樣本交還給老師,保證不打亂教學(xué)進(jìn)度。

  其次,由于不同學(xué)校,不同教學(xué)場景的差異性較大,企業(yè)研發(fā)的教學(xué)產(chǎn)品需要能適配各種場景。這需要企業(yè)通過積累獲取大量樣本,否則產(chǎn)品在落地的過程中,很難真正適用于學(xué)校,從而可能誤導(dǎo)教學(xué)過程。

  這些都對企業(yè)學(xué)科的場景理解能力、教研的能力,合理的運營能力,和有效的商業(yè)模式等提出了更高的要求。

  值得注意的是,不少從業(yè)者表示,“這塊技術(shù),目前雖然還不夠成熟,競爭也還不充分,但行業(yè)的期待值很高”。因此,越來越多的市場參與者加入其中。這其中包括向新技術(shù)轉(zhuǎn)型的老一代閱卷公司、直接從新閱卷技術(shù)切入的創(chuàng)業(yè)型公司、一些大型教育企業(yè)等等。

  “在還不能保證數(shù)據(jù)的準(zhǔn)確的情況下,不輕易把不成熟的數(shù)據(jù)反饋到教學(xué)環(huán)節(jié)中去?!边@是不少行業(yè)人士從事這塊業(yè)務(wù)最基本的底線。(多知網(wǎng) 黎珊)