句酷批改網(wǎng):用機(jī)器批改作文的創(chuàng)業(yè)故事

2014-11-24 07:52:12發(fā)布   來(lái)源:多知網(wǎng)   作者:車錦文   0條評(píng)論

  句酷批改網(wǎng)(以下簡(jiǎn)稱“批改網(wǎng)”)創(chuàng)辦三年時(shí)間,最近獲得了數(shù)千萬(wàn)元的A輪投資,正在進(jìn)行B輪融資。在“決勝東方創(chuàng)業(yè)大賽”上,獲得“最佳商業(yè)模式”和“最具盈利能力”兩個(gè)獎(jiǎng)項(xiàng)。據(jù)官方數(shù)據(jù),全國(guó)有1600所學(xué)校使用批改網(wǎng),包括清華、北大、復(fù)旦等高校,清華將他們的產(chǎn)品融入到了日常教學(xué)體系中。10萬(wàn)名大學(xué)英語(yǔ)教師中,4萬(wàn)名在使用他們的產(chǎn)品。

  多知網(wǎng)采訪批改網(wǎng)創(chuàng)始人之一陳瑞江,聽(tīng)他講批改網(wǎng)是如何做到這些的。

  批改網(wǎng)的創(chuàng)辦和發(fā)展,與創(chuàng)始人張躍的技術(shù)背景有很大的關(guān)系。張躍曾經(jīng)在微軟、奇虎360公司工作,其工作的主要內(nèi)容是語(yǔ)言的搜索及處理。

  因?yàn)榭春谜Z(yǔ)言搜索這個(gè)領(lǐng)域的發(fā)展,張躍在2006年創(chuàng)辦了雙語(yǔ)例句搜索網(wǎng)站“句酷網(wǎng)”。那個(gè)時(shí)候張躍還沒(méi)有找到明確的創(chuàng)業(yè)方向,但是開(kāi)始了最原始的數(shù)據(jù)積累。這些數(shù)據(jù)積累,在開(kāi)發(fā)產(chǎn)品時(shí)派上了大用場(chǎng)。

  偶然發(fā)現(xiàn)英語(yǔ)老師的需求

  在2010年,一次偶然的機(jī)會(huì)讓他們發(fā)現(xiàn)高校英語(yǔ)老師的需求。

  批改網(wǎng)在向南京大學(xué)推廣英語(yǔ)學(xué)習(xí)綜合平臺(tái)時(shí),南京大學(xué)的老師告訴他們,這樣的平臺(tái)意義不大。高校實(shí)行大班制,每位老師帶一百多名學(xué)生。教師批改作文,花費(fèi)時(shí)間太長(zhǎng)。1分鐘一篇,看完需要兩個(gè)小時(shí)。而老師最痛苦的地方還在于重復(fù)的錯(cuò)誤反復(fù)出現(xiàn)。此外,學(xué)生寫作文,如果老師反饋及時(shí),那學(xué)生就有寫作的動(dòng)力。但是,因?yàn)楦鞣N原因,老師的反饋要隔一周甚至兩周。

  所以高校老師最大的需求是改善作文批改環(huán)節(jié)。

  回到北京后,批改網(wǎng)立刻開(kāi)始研發(fā)。利用之前的數(shù)據(jù)積累,三個(gè)月開(kāi)發(fā)出批改軟件的第一個(gè)版本。陳瑞江現(xiàn)在說(shuō)起那個(gè)版本時(shí),仍忍不住要說(shuō),第一個(gè)版本很難看。但還是堅(jiān)持給南京大學(xué)的外語(yǔ)教師試用,希望得到真實(shí)的反饋。

  自此,批改網(wǎng)的團(tuán)隊(duì)每個(gè)月到南京3次,聽(tīng)完老師的建議后回北京修改,改完繼續(xù)讓老師試用。這樣的狀態(tài)保持了一年的時(shí)間。在這一年,試用人數(shù)不斷擴(kuò)大,但是沒(méi)有收入。做項(xiàng)目掙的錢也難以支持批改軟件的研發(fā)。所以他們接受了一些天使投資。

  2011年6月28日,批改網(wǎng)帶著軟件的第二版,分別詢問(wèn)了南京大學(xué)教師和北京部分英語(yǔ)寫作教學(xué)經(jīng)驗(yàn)豐富的教師,是否可以推廣到其他學(xué)校。當(dāng)?shù)玫娇隙ǖ拇饛?fù)時(shí),2011年9月份,批改網(wǎng)開(kāi)始在江蘇省的一個(gè)學(xué)術(shù)會(huì)議上推廣。

  剛開(kāi)始推廣地點(diǎn)選擇了重點(diǎn)高校比較多的北京和江蘇。團(tuán)隊(duì)所有人員出去拜訪高校老師,請(qǐng)他們免費(fèi)試用。漸漸地,批改網(wǎng)被清華、復(fù)旦、上海交通等高校接受。

  現(xiàn)在批改網(wǎng)通過(guò)組織大賽或者會(huì)議的方式進(jìn)行營(yíng)銷。全國(guó)使用批改網(wǎng)的學(xué)校有1600所,學(xué)生400萬(wàn),老師4萬(wàn)。

  為了使產(chǎn)品的功能更完善,批改網(wǎng)采取兩個(gè)方式:一是多了解國(guó)外同行的發(fā)展水平,了解目前最新的人工智能技術(shù)。將自己的產(chǎn)品與國(guó)外產(chǎn)品作對(duì)比,但不盲目修改。目前全球范圍內(nèi)擁有英語(yǔ)作文機(jī)改核心引擎的不超過(guò)十家。主要以麥格勞希爾、培生集團(tuán)、美國(guó)ETS協(xié)會(huì)三家為主。

  二是技術(shù)團(tuán)隊(duì)每周周一將收集來(lái)的用戶反饋逐一分析,了解用戶需求。能夠改的立刻就改。改完后給用戶發(fā)感謝信。

  批改網(wǎng)的營(yíng)收模式是將產(chǎn)品賣給學(xué)校,向?qū)W校收費(fèi)。學(xué)校的老師、學(xué)生免費(fèi)使用。至于營(yíng)收數(shù)額,陳瑞江稱,批改網(wǎng)在2013年底就已經(jīng)營(yíng)收平衡。目前員工有五十多位。其中技術(shù)人員占到三分之一,銷售和運(yùn)營(yíng)人員占到三分之一。

   機(jī)器如何改作文?

  批改網(wǎng)修改作文的原理是,作文提交后,網(wǎng)站將作文從“詞匯”、“句子”、“篇章結(jié)構(gòu)”、“內(nèi)容相關(guān)度”4個(gè)大類192個(gè)維度進(jìn)行拆分,每個(gè)維度都會(huì)與批改網(wǎng)建立的英語(yǔ)本族語(yǔ)語(yǔ)料庫(kù)(即國(guó)外英語(yǔ)文章的素材)作對(duì)比。語(yǔ)料庫(kù)越豐富,對(duì)比的客觀性就越高,機(jī)器批改與人工批改的一致率就越高。

  比如,在作文中經(jīng)常出現(xiàn)“learn knowledge”這樣的中式英語(yǔ)。將這樣的語(yǔ)言搭配與語(yǔ)料庫(kù)資料對(duì)比后發(fā)現(xiàn),以英語(yǔ)為母語(yǔ)的國(guó)家中,使用“learn knowledge”的頻率為0次,使用頻率最高的是“have knowledge”。所以,會(huì)建議學(xué)生使用“have knowledge”。

  這4個(gè)維度總共占比100%。可以根據(jù)考核需要去調(diào)整每個(gè)維度所占比例。比如,側(cè)重考核詞匯,可以將詞匯比列調(diào)高。在批改時(shí),機(jī)器就會(huì)側(cè)重詞匯。作文改完后,機(jī)器會(huì)打分。分?jǐn)?shù)越高,說(shuō)明作文的表達(dá)方式越接近英語(yǔ)本族的表達(dá)方式。目前能夠批改的文章包括英語(yǔ)四六級(jí)、雅思、托福等等。

  所以,機(jī)器批改作文,使用的是搜索、抓取技術(shù),搜索國(guó)外的文章素材并抓取過(guò)來(lái)。而且,語(yǔ)言是動(dòng)態(tài)變化的,語(yǔ)料庫(kù)需要實(shí)時(shí)更新。目前,批改網(wǎng)積累了30億字詞的語(yǔ)料庫(kù),每天都在增加。

  為了測(cè)試機(jī)器批改與人工批改的基本一致率,批改網(wǎng)在2011年嘗試批改南京大學(xué)的1456份英語(yǔ)作文,將批改結(jié)果與人工批改結(jié)果對(duì)比發(fā)現(xiàn),兩者基本一致率為92.05%。美國(guó)ETS的E-Rater公布的基本一致率是92%。

  此外,考慮到不同專業(yè)學(xué)生需要寫出不同文體。比如新聞專業(yè)學(xué)生會(huì)用英語(yǔ)寫新聞。教育專業(yè)學(xué)生寫論文時(shí),寫英文摘要。所以,批改網(wǎng)語(yǔ)料庫(kù)中會(huì)實(shí)時(shí)抓取不同文體的文章。新聞方面抓取《紐約時(shí)報(bào)》等報(bào)刊。教育專業(yè)論文會(huì)采集教育雜志、期刊。

  學(xué)生在寫作文時(shí)還存在一種情況,就是抄襲。所以,批改網(wǎng)花費(fèi)了不少精力改善“抄襲檢測(cè)”功能。當(dāng)學(xué)生提交作文后,點(diǎn)擊“抄襲檢測(cè)”,批改網(wǎng)會(huì)將與作文內(nèi)文相似的文章全部排列出來(lái)。相似度越高,排名越靠前。

  批改網(wǎng)的核心是利用積累的大數(shù)據(jù)與用戶對(duì)話,及時(shí)給每位用戶個(gè)性化反饋,并記錄每個(gè)學(xué)生的學(xué)習(xí)過(guò)程。通過(guò)反饋驅(qū)動(dòng)學(xué)生學(xué)習(xí)。比如告訴學(xué)生作文錯(cuò)在哪里,錯(cuò)的原因是什么,如何修改。將使用過(guò)程中積累的數(shù)據(jù)進(jìn)行分析,生成學(xué)生診斷報(bào)告、寫作能力分析報(bào)告,驅(qū)動(dòng)教師教學(xué)。

   未來(lái)產(chǎn)品研發(fā)大方向:人機(jī)合作

  在與高校老師交流的過(guò)程中,經(jīng)常有老師詢問(wèn)批改網(wǎng)的技術(shù)人員:機(jī)器能否判斷出文章是否具有創(chuàng)新性,文章是否具有邏輯性?

  陳瑞江解釋道,目前通過(guò)技術(shù)難以判斷一篇文章是否符合邏輯。前后連貫性,可以通過(guò)連接詞的使用判斷。語(yǔ)義的邏輯性,文章的創(chuàng)新性,從目前人工智能的角度來(lái)講還是比較困難。批改網(wǎng)更多的是從語(yǔ)言的表達(dá)方面做批改。

  此外,批改網(wǎng)還要提高對(duì)文章錯(cuò)誤的識(shí)別率;產(chǎn)品的趣味性、師生之間和學(xué)生之間的互動(dòng)都不夠。

  批改網(wǎng)近日宣布獲得數(shù)千萬(wàn)元A輪投資。采訪過(guò)程中,陳瑞江向多知網(wǎng)透露,目前已經(jīng)開(kāi)始接觸B輪投資。投資所獲資金將主要用于產(chǎn)品研發(fā)和市場(chǎng)擴(kuò)張方面。

  未來(lái)批改網(wǎng)產(chǎn)品研發(fā)大方向是如何實(shí)現(xiàn)人機(jī)合作,如何利用好群體智慧。

  “人機(jī)合作”就是將人工批改與智能修改相結(jié)合。陳瑞江稱,目前人工智能領(lǐng)域有一個(gè)共識(shí),就是機(jī)器不能代替人工,人機(jī)合作才是未來(lái)發(fā)展的大方向。未來(lái)機(jī)器批改,教師評(píng)閱,學(xué)生互評(píng),學(xué)生自評(píng)四者會(huì)相互結(jié)合。

  群體智慧是指,個(gè)別學(xué)生或者個(gè)別老師反饋,團(tuán)隊(duì)可能不會(huì)重視。如果反饋的人數(shù)很多,就會(huì)引起重視。所以,批改網(wǎng)后臺(tái)不斷在分析用戶的反饋數(shù)據(jù)。因此批改網(wǎng)的產(chǎn)品增加“點(diǎn)贊”“評(píng)價(jià)有用或者沒(méi)有”等功能。

  三維擴(kuò)張是指文體擴(kuò)張、目標(biāo)人群擴(kuò)張、區(qū)域擴(kuò)張。

  從作文單一文體擴(kuò)張到摘要、論文、書信、漢譯英、聽(tīng)寫、口語(yǔ)等方面;從大學(xué)生這個(gè)目標(biāo)人群向上擴(kuò)展到研究生,博士,向下延伸到中小學(xué);從目前的大陸市場(chǎng)向港澳臺(tái)、日本、韓國(guó)等地?cái)U(kuò)張。據(jù)了解,香港和臺(tái)灣已經(jīng)有大學(xué)在付費(fèi)使用批改網(wǎng)。拓展國(guó)外的團(tuán)隊(duì)已經(jīng)開(kāi)始籌備。

  陳瑞江認(rèn)為,中國(guó)要“走出去”,要學(xué)會(huì)輸出標(biāo)準(zhǔn),批改網(wǎng)未來(lái)5年最重要的任務(wù)就是收集數(shù)據(jù),用真實(shí)的數(shù)據(jù)成為事實(shí)上的標(biāo)準(zhǔn)。

更多>>

知·道

  • 素質(zhì)教育:下一個(gè)上市公司在這里?