相比去年已經(jīng)有了較大的進步。

教育大模型在學習輔導和心理關懷方面進化,高考數(shù)學客觀題正確率超90%

2025-06-11 11:40:00發(fā)布     來源:多知    作者:Sally  

  來源|多知

  作者|Sally

  高考這幾天,為了防止作弊,多個AI聊天助手主動關閉了識圖功能或關閉了“拍題解答”功能?,F(xiàn)在,2025年高考結束,可以測試大模型推理能力進展了。

  學而思旗下九章大模型針對2025年高考數(shù)學全國卷(Ⅰ卷、Ⅱ卷)的選擇題和填空題進行自測,結果顯示:在Ⅰ卷的14道選擇填空題中,九章大模型答對12道;在Ⅱ卷的14道選擇填空題中,全部正確。

  據(jù)了解,測試聚焦于選擇題和填空題,這兩類題型有明確的客觀答案,便于評估AI的準確率;而解答題、證明題涉及步驟分、邏輯表述等主觀評分因素,對于AI輸出結果的判斷存在差異,因此未納入本次測試范圍。

  在高考中,數(shù)學是最能體現(xiàn)大模型推理能力的學科。此次評測可以看到,教育垂類大模型在正確率和解題規(guī)范方面占據(jù)優(yōu)勢,相比去年已經(jīng)有了較大的進步。

  對于學生的成長來說,學習之外,心理健康尤為重要。九章大模型在這兩方面持續(xù)精進。

  高考季,好未來旗下九章愛學App(原九章答疑APP)宣布,依托自研九章大模型技術,持續(xù)為青少年提供學習輔導+心理疏導雙重服務,希望通過小思聊聊功能免費為考生提供更多心理支持。

 

  01 教育垂類大模型更重視正確率和解題規(guī)范

  整體情況如圖,在兩套全國試卷中的28道選擇題中,九章大模型做錯了全國Ⅰ卷的6、9兩題,在共28道主觀題當中,共做對26題,整體正確率約93%。

  

WechatIMG41.jpg

  單選、多選的最后一題一般為該題型下最難的題目,大模型也完成了思考和計算,給出正確答案:

WechatIMG39.jpg

  

  值得注意的是,以文本輸出見長的大模型,在面對數(shù)學公式、特殊符號的表達時,往往會采用"代償性表述"——例如用"a的平方加b的平方"代替"a²+b²"。而九章大模型作為教育垂類專用模型,其訓練數(shù)據(jù)中包含了大量教材、教輔資料的專業(yè)表達,使得它在輸出時能直接使用數(shù)學符號。

  九章大模型在解答后還會附加“考點分析”和“易錯點提示”,這種結合知識圖譜的結構化輸出,更接近學生和老師使用大模型輔助學習的真實場景。

  在業(yè)內(nèi)人士看來,目前大模型在限定領域的客觀題上表現(xiàn)優(yōu)秀,但在開放性、創(chuàng)造性題目上仍有很大空間。現(xiàn)階段AI賦能教育的體現(xiàn),更多是在對老師的教學輔助和對學生的個性化學習和心理輔導上。

 

 02 九章愛學App“小思聊聊”功能關注青少年心理健康

  大模型之外,好未來將更多細節(jié)方面的功能設計在各個產(chǎn)品應用當中。如九章愛學App,集“學習輔導和心理關懷”于一體,且專門針對青少年。

  在九章愛學App,用戶通過“小思”聊天入口,點擊“開始聊天”,即可展開對話。九章愛學App的心理支持并非階段性功能疊加,而是融入日常使用的自然陪伴。例如學生在刷題間隙問及“總擔心考砸怎么辦”,AI會結合其近期學情數(shù)據(jù)生成個性化疏導方案,例如“抱抱你,其實你已經(jīng)做得很好了。數(shù)學成績波動是查漏補缺的信號,不要擔心”。

  九章愛學APP相關負責人表示,“希望通過‘小思聊聊’功能將專業(yè)心理知識與AI技術結合,為青少年提供‘觸手可及的心理支持’。這有望成為學校心理健康服務的重要補充。”