大模型正在快速滲透教育行業(yè)。

普通教育從業(yè)者也能看得懂的GPT原理:知其厲害,知其所以厲害

2023-06-17 09:57:52發(fā)布     來源:多知網(wǎng)    作者:2709  

  編者按:

  本文系多知網(wǎng)約稿。作者認(rèn)為無論是國內(nèi)外,教育領(lǐng)域的AI應(yīng)用正在蓬勃發(fā)展,并且大模型正在快速滲透教育行業(yè)。對(duì)于廣大教育從業(yè)者來說,如何使用好大模型才是正途,而知曉了大模型的底層邏輯和運(yùn)作原理才能更好地使用它。

  OpenAI的ChatGPT用戶量直線飆升至月訪問10億,躋身頂流網(wǎng)站之列。無論是國內(nèi)外,教育領(lǐng)域的AI應(yīng)用正在蓬勃發(fā)展。海外的多鄰國、可汗學(xué)院、Quizlet等紛紛擁抱AI;國內(nèi),好未來推出MathGPT,投資深言科技;科大訊飛發(fā)布星火大模型的產(chǎn)品;網(wǎng)易有道加速研發(fā)“子曰”大模型;作業(yè)幫正在內(nèi)測(cè)針對(duì)國內(nèi)市場(chǎng)的教育大模型。無疑大模型正在快速滲透教育行業(yè)。然而,對(duì)于廣大教育從業(yè)者來說,如何使用才是正途。但只有真正理解大模型的工作原理,才能知其優(yōu)劣勢(shì),從而更精準(zhǔn)地應(yīng)用于工作和產(chǎn)品研發(fā)中。

  本文將用通俗的語言,幫助大家理解大模型典型代表GPT是如何運(yùn)作、如何訓(xùn)練的。

  01

  第一個(gè)問題:GPT是如何回答出大段文字的

  首先我們來了解一下什么是 GPT。ChatGPT,顧名思義,就是利用 GPT 技術(shù)實(shí)現(xiàn)聊天的軟件。其中"Chat" 代表聊天功能,"GPT" 則是實(shí)現(xiàn)這一功能的技術(shù)核心。

  那GPT的核心原理是什么呢?答案就是:“單字接龍。”也就是,一個(gè)字一個(gè)字的接龍,在上文最后一個(gè)字的后面,接下一個(gè)字。“蘋果”-“果實(shí)”-“實(shí)在”-“在意”就是典型的詞語接龍,只不過,GPT單字接龍的依據(jù),不是和最后一個(gè)字組成詞語,而是基于上文的語境,來預(yù)測(cè)下一個(gè)字。如上文語境是“今天天氣好,太”,那么機(jī)器在這句話后面,大概率會(huì)接的就是“陽”字。

  那GPT是如何生成長文的呢?即,將自己生成的字,和剛才的上文組成新的上文,然后緊接著再生成下一個(gè)字。正如剛才的那句話“今天天氣好,太”后接了“陽”字后,新的上文就是“今天天氣好,太陽”,緊接著就可能依次生成“當(dāng)”“空”“照”,如此循環(huán),就形成了一段文字。我們?cè)谟肎PT問答的過程,GPT也是把問題作為上文,答案作為下文一個(gè)字一個(gè)字生成而得。所以我們?cè)谑褂肎PT的時(shí)候,也會(huì)發(fā)現(xiàn)他在生成內(nèi)容的時(shí)候,有明顯的一個(gè)字一個(gè)字打出來的感覺,這就是他在單字接龍。

  02

  第二個(gè)問題:GPT是如何回答出我們想要的答案的

  GPT原理不難,就是一個(gè)字一個(gè)字的生成,最終回答出一段文字。但如何確保生成的內(nèi)容符合我們的期望,而不是隨意堆砌文字呢?答案是:概率。

  實(shí)際上,生成的下一個(gè)字時(shí)可以是任何字,但由于GPT經(jīng)過了多次訓(xùn)練,所以它會(huì)根據(jù)概率選擇下一個(gè)字,以生成我們期望的文字。例如,當(dāng)GPT遇到“今天天氣好”這個(gè)上文時(shí),下一個(gè)字生成“太”的概率就很高,接著是生成“陽”“當(dāng)”“空”“照”幾個(gè)字。

  那為什么“太”字的概率就很高呢?因?yàn)镚PT被類似的段落訓(xùn)練過。我們可以將訓(xùn)練過程想象成是一位老師一遍又一遍地告訴機(jī)器:今天天氣好,下一句是“太陽當(dāng)空照”’。經(jīng)過多次訓(xùn)練, GPT就學(xué)會(huì)了這個(gè)組合,之后在進(jìn)行單字接龍時(shí),按照“今天天氣好,太陽當(dāng)空照”的順序接龍下去的概率就很高。

  那下一個(gè)字的概率是如何計(jì)算的呢?概率本是數(shù)學(xué)的概念,文字和文字之間是不能進(jìn)行數(shù)學(xué)運(yùn)算的。所以機(jī)器會(huì)先把上文的文字,轉(zhuǎn)化成向量(數(shù)學(xué)上可以進(jìn)行計(jì)算),通過對(duì)向量進(jìn)行一系列復(fù)雜的計(jì)算和比對(duì),最終來選擇下一個(gè)字。

  這樣,通過利用上文和連續(xù)選擇最高概率的下一個(gè)字,機(jī)器就能夠生成連貫的文本。那什么樣的下一個(gè)字概率大呢?這與它與訓(xùn)練數(shù)據(jù)(或者說,教導(dǎo)它的內(nèi)容)的接近程度有關(guān),越接近,概率就越大。

  然而上文的組合形式是五花八門,即便兩種組合相似度很高,計(jì)算出的下一個(gè)字的概率分布也可能大相徑庭。這就解釋了為什么我們?cè)趩柾瑯拥膯栴}時(shí),機(jī)器可能會(huì)給出不同的回答。這也幫助我們理解為什么提示詞能夠協(xié)助我們得到更佳的答案,因?yàn)樘崾驹~為GPT提供了具體的上文環(huán)境。比如,如果我們先告訴GPT我是一名律師,那么在計(jì)算下一個(gè)字的概率分布時(shí),與法律相關(guān)的字的概率就會(huì)顯著提高。

  03

  第三個(gè)問題:是如何訓(xùn)練GPT讓它擁有上述能力的?

  步驟一【預(yù)訓(xùn)練】

  GPT是如何進(jìn)行訓(xùn)練的呢?我們可以將其與我們背誦課文或古詩時(shí)的方式進(jìn)行類比。想象一下,我們遮住下文,然后回憶,直到想起下一句是什么。GPT在訓(xùn)練階段采用了類似的方法,稱為自回歸訓(xùn)練。它會(huì)給定一段文字,遮住下文部分,然后嘗試猜測(cè)接下來的內(nèi)容,如果猜錯(cuò)了就重新嘗試,直到猜對(duì)為止。不同的是,機(jī)器會(huì)運(yùn)用一些方法來調(diào)整模型參數(shù),以便更準(zhǔn)確地猜測(cè)下一個(gè)字。這個(gè)過程被稱為無監(jiān)督學(xué)習(xí),即不用老師去指出學(xué)生錯(cuò)誤或者糾正,只需將數(shù)據(jù)或文本提供給機(jī)器,讓它自己學(xué)習(xí)。

  通過大量的數(shù)據(jù)和無數(shù)次的計(jì)算,機(jī)器學(xué)會(huì)了按照人類的方式逐字生成內(nèi)容。以GPT-3為例,它使用了45TB的文本數(shù)據(jù)進(jìn)行訓(xùn)練。如果我們假設(shè)一本書有200頁,每頁有500字,那么相當(dāng)于GPT-3學(xué)習(xí)了4500億本書的內(nèi)容。而現(xiàn)在的GPT-4,訓(xùn)練的數(shù)據(jù)量更大,使其具備了更強(qiáng)大的生成能力。當(dāng)這個(gè)過程完成時(shí),也就稱完成了預(yù)訓(xùn)練,GPT便擁有了通才的能力。

  步驟二【微調(diào)】

  然而,即使機(jī)器學(xué)會(huì)了文本生成,我們?nèi)匀恍枰乐顾鼇y說話。因?yàn)樵诟黝愇谋局?,存在大量不適當(dāng)?shù)膬?nèi)容,包括恐怖主義、歧視和臟話等。這就引入了第二步,即微調(diào)過程。簡(jiǎn)而言之,我們使用規(guī)范的文本來糾正這個(gè)"話癆",當(dāng)它說臟話時(shí),我們告訴它"不可以";當(dāng)有人詢問"如何安穩(wěn)地自殺"時(shí),我們告訴它回答"要?jiǎng)駥?dǎo)提問者不要自殺,要熱愛生命"。這個(gè)過程被稱為監(jiān)督學(xué)習(xí),就像有個(gè)老師在監(jiān)督機(jī)器學(xué)習(xí),對(duì)于機(jī)器輸出的內(nèi)容,是有標(biāo)準(zhǔn)答案的,如果回答不好,就重新回答。為什么叫微調(diào)呢,因?yàn)橄啾鹊谝粋€(gè)步驟(預(yù)訓(xùn)練),規(guī)模要小很多。正如需要培養(yǎng)一個(gè)紳士,在預(yù)訓(xùn)練基礎(chǔ)上,你只需要規(guī)范他的禮儀即可。

  步驟三【強(qiáng)化學(xué)習(xí)】

  機(jī)器學(xué)會(huì)了說話并能夠正確表達(dá),但如果它始終按照訓(xùn)練文本的模式生成內(nèi)容,就會(huì)變得呆板和缺乏創(chuàng)意。為了鼓勵(lì)機(jī)器生成更具創(chuàng)造性和獨(dú)特性的內(nèi)容,引入了強(qiáng)化學(xué)習(xí)的方法,即基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。

  RLHF的思想很簡(jiǎn)單,當(dāng)機(jī)器生成了我們認(rèn)為不錯(cuò)的回答時(shí),我們給予它鼓勵(lì);而當(dāng)機(jī)器生成的回答不夠理想時(shí),我們給予它批評(píng)或糾正。通過不斷的反饋和調(diào)整,機(jī)器能夠逐漸學(xué)會(huì)生成更加優(yōu)秀和獨(dú)特的回答。我們可以觀察到,在與chatGPT聊天時(shí)候,回答里會(huì)有“better”“worse”“same”的評(píng)價(jià),這實(shí)際就是GPT在利用我們這些用戶對(duì)機(jī)器進(jìn)行糾正,讓它知道什么樣的回答是我們喜歡的,機(jī)器就更傾向于生產(chǎn)那類回答。

  04

  問題四:訓(xùn)練一個(gè)大模型和養(yǎng)一個(gè)聰明的孩子有什么不同

  如果你能看到這里,你會(huì)發(fā)現(xiàn)訓(xùn)練一個(gè)大模型和撫養(yǎng)一個(gè)小孩很像。小時(shí)候,讓他去接觸各種各樣的事物,然后通過正規(guī)教育規(guī)范他的行為,再同時(shí)通過獎(jiǎng)懲去激發(fā)他的創(chuàng)造性。

  但,他和撫養(yǎng)一個(gè)小孩有什么不同呢?

  1、模型并不是真正學(xué)會(huì)了語言并了解了語言的意義,而是學(xué)會(huì)了一種承載了語言及意義的文字搭配方式。(請(qǐng)多讀3遍,有點(diǎn)繞口)而小孩是可以理解其意義的。

  2、模型不是數(shù)據(jù)庫,不是你問問題后,它去龐大的數(shù)據(jù)庫里去找答案。而是,他學(xué)會(huì)了推理,知道了文字與文字之間的關(guān)系。你提問后,它按照它學(xué)到的推理結(jié)構(gòu),去產(chǎn)生你要的問題的答案,這并不是記憶。但小孩既有推理能力,也有記憶能力。

  由此,就出現(xiàn)了大模型目前無法解決的問題,一把雙刃劍——生成性。

  這一特性讓它能產(chǎn)生未見過的內(nèi)容,是本次大模型技術(shù)飛躍的關(guān)鍵亮點(diǎn)。雖然大模型不理解自己生產(chǎn)的內(nèi)容是什么,但它確實(shí)給我們提供了非常良好的體驗(yàn),如近似人的聊天。然而,這也帶來了問題,即模型的答案無法完全受到控制,無論微調(diào)或強(qiáng)化學(xué)習(xí)如何進(jìn)行,始終存在不確定性,會(huì)生成一些我們不想要的答案。這就是模型幻覺,即使這種不可控隨著模型完善可以降低,但卻無法消除,這也是人工智能領(lǐng)域目前的一大挑戰(zhàn)。

  就如同兒童玩具不應(yīng)包含不適內(nèi)容,游戲NPC的對(duì)話必須和游戲世界觀一致,教育工具不應(yīng)違背核心價(jià)值觀一樣,內(nèi)容生產(chǎn)需要可控。因此,大企業(yè)通常不會(huì)冒險(xiǎn)采用成熟產(chǎn)品試水,即使這個(gè)風(fēng)險(xiǎn)的概率非常小。這樣的挑戰(zhàn)在很大程度上阻礙了大模型的商業(yè)應(yīng)用,所以我們能看見大模型在資本圈火熱,但在商業(yè)上暫時(shí)未創(chuàng)造出與其匹配的價(jià)值。對(duì)于這個(gè)問題我們將在接下來的文章中進(jìn)行探討,若有感興趣的話題,請(qǐng)留言。

  注:以上僅為初步闡述GPT原理,為方便理解而進(jìn)行簡(jiǎn)化。實(shí)際操作過程中涉及各類復(fù)雜細(xì)節(jié),若需深入理解,建議查閱相關(guān)學(xué)術(shù)論文。

  (本文僅代表作者個(gè)人觀點(diǎn),供讀者參考。)