創(chuàng)辦三年時間,最近獲得了數(shù)千萬元的A輪投資。在“決勝東方創(chuàng)業(yè)大賽”上,獲得“最佳商業(yè)模式”和“最具盈利能力”兩個獎項。據(jù)官方數(shù)據(jù),全國有1600所學(xué)校使用批改網(wǎng),包括清華、北大、復(fù)旦等高校,清華將他們的產(chǎn)品融入到了日常教學(xué)體系中。10萬名大學(xué)英語教師中,4萬名在使用他們的產(chǎn)品。

句酷批改網(wǎng):用機器批改作文的創(chuàng)業(yè)故事

2014-11-24 13:21:09發(fā)布     來源:多知網(wǎng)    作者:車錦文  

  句酷批改網(wǎng)(以下簡稱“批改網(wǎng)”)創(chuàng)辦三年時間,最近獲得了數(shù)千萬元的A輪投資,正在進行B輪融資。在“決勝東方創(chuàng)業(yè)大賽”上,獲得“最佳商業(yè)模式”和“最具盈利能力”兩個獎項。據(jù)官方數(shù)據(jù),全國有1600所學(xué)校使用批改網(wǎng),包括清華、北大、復(fù)旦等高校,清華將他們的產(chǎn)品融入到了日常教學(xué)體系中。10萬名大學(xué)英語教師中,4萬名在使用他們的產(chǎn)品。

  多知網(wǎng)采訪批改網(wǎng)創(chuàng)始人之一陳瑞江,聽他講批改網(wǎng)是如何做到這些的。

  批改網(wǎng)的創(chuàng)辦和發(fā)展,與創(chuàng)始人張躍的技術(shù)背景有很大的關(guān)系。張躍曾經(jīng)在微軟、奇虎360公司工作,其工作的主要內(nèi)容是語言的搜索及處理。

  因為看好語言搜索這個領(lǐng)域的發(fā)展,張躍在2006年創(chuàng)辦了雙語例句搜索網(wǎng)站“句酷網(wǎng)”。那個時候張躍還沒有找到明確的創(chuàng)業(yè)方向,但是開始了最原始的數(shù)據(jù)積累。這些數(shù)據(jù)積累,在開發(fā)產(chǎn)品時派上了大用場。

  偶然發(fā)現(xiàn)英語老師的需求

  在2010年,一次偶然的機會讓他們發(fā)現(xiàn)高校英語老師的需求。

  批改網(wǎng)在向南京大學(xué)推廣英語學(xué)習(xí)綜合平臺時,南京大學(xué)的老師告訴他們,這樣的平臺意義不大。高校實行大班制,每位老師帶一百多名學(xué)生。教師批改作文,花費時間太長。1分鐘一篇,看完需要兩個小時。而老師最痛苦的地方還在于重復(fù)的錯誤反復(fù)出現(xiàn)。此外,學(xué)生寫作文,如果老師反饋及時,那學(xué)生就有寫作的動力。但是,因為各種原因,老師的反饋要隔一周甚至兩周。

  所以高校老師最大的需求是改善作文批改環(huán)節(jié)。

  回到北京后,批改網(wǎng)立刻開始研發(fā)。利用之前的數(shù)據(jù)積累,三個月開發(fā)出批改軟件的第一個版本。陳瑞江現(xiàn)在說起那個版本時,仍忍不住要說,第一個版本很難看。但還是堅持給南京大學(xué)的外語教師試用,希望得到真實的反饋。

  自此,批改網(wǎng)的團隊每個月到南京3次,聽完老師的建議后回北京修改,改完繼續(xù)讓老師試用。這樣的狀態(tài)保持了一年的時間。在這一年,試用人數(shù)不斷擴大,但是沒有收入。做項目掙的錢也難以支持批改軟件的研發(fā)。所以他們接受了一些天使投資。

  2011年6月28日,批改網(wǎng)帶著軟件的第二版,分別詢問了南京大學(xué)教師和北京部分英語寫作教學(xué)經(jīng)驗豐富的教師,是否可以推廣到其他學(xué)校。當(dāng)?shù)玫娇隙ǖ拇饛?fù)時,2011年9月份,批改網(wǎng)開始在江蘇省的一個學(xué)術(shù)會議上推廣。

  剛開始推廣地點選擇了重點高校比較多的北京和江蘇。團隊所有人員出去拜訪高校老師,請他們免費試用。漸漸地,批改網(wǎng)被清華、復(fù)旦、上海交通等高校接受。

  現(xiàn)在批改網(wǎng)通過組織大賽或者會議的方式進行營銷。全國使用批改網(wǎng)的學(xué)校有1600所,學(xué)生400萬,老師4萬。

  為了使產(chǎn)品的功能更完善,批改網(wǎng)采取兩個方式:一是多了解國外同行的發(fā)展水平,了解目前最新的人工智能技術(shù)。將自己的產(chǎn)品與國外產(chǎn)品作對比,但不盲目修改。目前全球范圍內(nèi)擁有英語作文機改核心引擎的不超過十家。主要以麥格勞希爾、培生集團、美國ETS協(xié)會三家為主。

  二是技術(shù)團隊每周周一將收集來的用戶反饋逐一分析,了解用戶需求。能夠改的立刻就改。改完后給用戶發(fā)感謝信。

  批改網(wǎng)的營收模式是將產(chǎn)品賣給學(xué)校,向?qū)W校收費。學(xué)校的老師、學(xué)生免費使用。至于營收數(shù)額,陳瑞江稱,批改網(wǎng)在2013年底就已經(jīng)營收平衡。目前員工有五十多位。其中技術(shù)人員占到三分之一,銷售和運營人員占到三分之一。

   機器如何改作文?

  批改網(wǎng)修改作文的原理是,作文提交后,網(wǎng)站將作文從“詞匯”、“句子”、“篇章結(jié)構(gòu)”、“內(nèi)容相關(guān)度”4個大類192個維度進行拆分,每個維度都會與批改網(wǎng)建立的英語本族語語料庫(即國外英語文章的素材)作對比。語料庫越豐富,對比的客觀性就越高,機器批改與人工批改的一致率就越高。

  比如,在作文中經(jīng)常出現(xiàn)“learn knowledge”這樣的中式英語。將這樣的語言搭配與語料庫資料對比后發(fā)現(xiàn),以英語為母語的國家中,使用“learn knowledge”的頻率為0次,使用頻率最高的是“have knowledge”。所以,會建議學(xué)生使用“have knowledge”。

  這4個維度總共占比100%??梢愿鶕?jù)考核需要去調(diào)整每個維度所占比例。比如,側(cè)重考核詞匯,可以將詞匯比列調(diào)高。在批改時,機器就會側(cè)重詞匯。作文改完后,機器會打分。分數(shù)越高,說明作文的表達方式越接近英語本族的表達方式。目前能夠批改的文章包括英語四六級、雅思、托福等等。

  所以,機器批改作文,使用的是搜索、抓取技術(shù),搜索國外的文章素材并抓取過來。而且,語言是動態(tài)變化的,語料庫需要實時更新。目前,批改網(wǎng)積累了30億字詞的語料庫,每天都在增加。

  為了測試機器批改與人工批改的基本一致率,批改網(wǎng)在2011年嘗試批改南京大學(xué)的1456份英語作文,將批改結(jié)果與人工批改結(jié)果對比發(fā)現(xiàn),兩者基本一致率為92.05%。美國ETS的E-Rater公布的基本一致率是92%。

  此外,考慮到不同專業(yè)學(xué)生需要寫出不同文體。比如新聞專業(yè)學(xué)生會用英語寫新聞。教育專業(yè)學(xué)生寫論文時,寫英文摘要。所以,批改網(wǎng)語料庫中會實時抓取不同文體的文章。新聞方面抓取《紐約時報》等報刊。教育專業(yè)論文會采集教育雜志、期刊。

  學(xué)生在寫作文時還存在一種情況,就是抄襲。所以,批改網(wǎng)花費了不少精力改善“抄襲檢測”功能。當(dāng)學(xué)生提交作文后,點擊“抄襲檢測”,批改網(wǎng)會將與作文內(nèi)文相似的文章全部排列出來。相似度越高,排名越靠前。

  批改網(wǎng)的核心是利用積累的大數(shù)據(jù)與用戶對話,及時給每位用戶個性化反饋,并記錄每個學(xué)生的學(xué)習(xí)過程。通過反饋驅(qū)動學(xué)生學(xué)習(xí)。比如告訴學(xué)生作文錯在哪里,錯的原因是什么,如何修改。將使用過程中積累的數(shù)據(jù)進行分析,生成學(xué)生診斷報告、寫作能力分析報告,驅(qū)動教師教學(xué)。

   未來產(chǎn)品研發(fā)大方向:人機合作

  在與高校老師交流的過程中,經(jīng)常有老師詢問批改網(wǎng)的技術(shù)人員:機器能否判斷出文章是否具有創(chuàng)新性,文章是否具有邏輯性?

  陳瑞江解釋道,目前通過技術(shù)難以判斷一篇文章是否符合邏輯。前后連貫性,可以通過連接詞的使用判斷。語義的邏輯性,文章的創(chuàng)新性,從目前人工智能的角度來講還是比較困難。批改網(wǎng)更多的是從語言的表達方面做批改。

  此外,批改網(wǎng)還要提高對文章錯誤的識別率;產(chǎn)品的趣味性、師生之間和學(xué)生之間的互動都不夠。

  批改網(wǎng)近日宣布獲得數(shù)千萬元A輪投資。采訪過程中,陳瑞江向多知網(wǎng)透露,目前已經(jīng)開始接觸B輪投資。投資所獲資金將主要用于產(chǎn)品研發(fā)和市場擴張方面。

  未來批改網(wǎng)產(chǎn)品研發(fā)大方向是如何實現(xiàn)人機合作,如何利用好群體智慧。

  “人機合作”就是將人工批改與智能修改相結(jié)合。陳瑞江稱,目前人工智能領(lǐng)域有一個共識,就是機器不能代替人工,人機合作才是未來發(fā)展的大方向。未來機器批改,教師評閱,學(xué)生互評,學(xué)生自評四者會相互結(jié)合。

  群體智慧是指,個別學(xué)生或者個別老師反饋,團隊可能不會重視。如果反饋的人數(shù)很多,就會引起重視。所以,批改網(wǎng)后臺不斷在分析用戶的反饋數(shù)據(jù)。因此批改網(wǎng)的產(chǎn)品增加“點贊”“評價有用或者沒有”等功能。

  三維擴張是指文體擴張、目標人群擴張、區(qū)域擴張。

  從作文單一文體擴張到摘要、論文、書信、漢譯英、聽寫、口語等方面;從大學(xué)生這個目標人群向上擴展到研究生,博士,向下延伸到中小學(xué);從目前的大陸市場向港澳臺、日本、韓國等地擴張。據(jù)了解,香港和臺灣已經(jīng)有大學(xué)在付費使用批改網(wǎng)。拓展國外的團隊已經(jīng)開始籌備。

  陳瑞江認為,中國要“走出去”,要學(xué)會輸出標準,批改網(wǎng)未來5年最重要的任務(wù)就是收集數(shù)據(jù),用真實的數(shù)據(jù)成為事實上的標準。