大模型正在快速滲透教育行業(yè)。
編者按:
本文系多知網(wǎng)約稿。作者認為無論是國內外,教育領域的AI應用正在蓬勃發(fā)展,并且大模型正在快速滲透教育行業(yè)。對于廣大教育從業(yè)者來說,如何使用好大模型才是正途,而知曉了大模型的底層邏輯和運作原理才能更好地使用它。
OpenAI的ChatGPT用戶量直線飆升至月訪問10億,躋身頂流網(wǎng)站之列。無論是國內外,教育領域的AI應用正在蓬勃發(fā)展。海外的多鄰國、可汗學院、Quizlet等紛紛擁抱AI;國內,好未來推出MathGPT,投資深言科技;科大訊飛發(fā)布星火大模型的產品;網(wǎng)易有道加速研發(fā)“子曰”大模型;作業(yè)幫正在內測針對國內市場的教育大模型。無疑大模型正在快速滲透教育行業(yè)。然而,對于廣大教育從業(yè)者來說,如何使用才是正途。但只有真正理解大模型的工作原理,才能知其優(yōu)劣勢,從而更精準地應用于工作和產品研發(fā)中。
本文將用通俗的語言,幫助大家理解大模型典型代表GPT是如何運作、如何訓練的。
01
第一個問題:GPT是如何回答出大段文字的
首先我們來了解一下什么是 GPT。ChatGPT,顧名思義,就是利用 GPT 技術實現(xiàn)聊天的軟件。其中"Chat" 代表聊天功能,"GPT" 則是實現(xiàn)這一功能的技術核心。
那GPT的核心原理是什么呢?答案就是:“單字接龍。”也就是,一個字一個字的接龍,在上文最后一個字的后面,接下一個字。“蘋果”-“果實”-“實在”-“在意”就是典型的詞語接龍,只不過,GPT單字接龍的依據(jù),不是和最后一個字組成詞語,而是基于上文的語境,來預測下一個字。如上文語境是“今天天氣好,太”,那么機器在這句話后面,大概率會接的就是“陽”字。
那GPT是如何生成長文的呢?即,將自己生成的字,和剛才的上文組成新的上文,然后緊接著再生成下一個字。正如剛才的那句話“今天天氣好,太”后接了“陽”字后,新的上文就是“今天天氣好,太陽”,緊接著就可能依次生成“當”“空”“照”,如此循環(huán),就形成了一段文字。我們在用GPT問答的過程,GPT也是把問題作為上文,答案作為下文一個字一個字生成而得。所以我們在使用GPT的時候,也會發(fā)現(xiàn)他在生成內容的時候,有明顯的一個字一個字打出來的感覺,這就是他在單字接龍。
02
第二個問題:GPT是如何回答出我們想要的答案的
GPT原理不難,就是一個字一個字的生成,最終回答出一段文字。但如何確保生成的內容符合我們的期望,而不是隨意堆砌文字呢?答案是:概率。
實際上,生成的下一個字時可以是任何字,但由于GPT經過了多次訓練,所以它會根據(jù)概率選擇下一個字,以生成我們期望的文字。例如,當GPT遇到“今天天氣好”這個上文時,下一個字生成“太”的概率就很高,接著是生成“陽”“當”“空”“照”幾個字。
那為什么“太”字的概率就很高呢?因為GPT被類似的段落訓練過。我們可以將訓練過程想象成是一位老師一遍又一遍地告訴機器:今天天氣好,下一句是“太陽當空照”’。經過多次訓練, GPT就學會了這個組合,之后在進行單字接龍時,按照“今天天氣好,太陽當空照”的順序接龍下去的概率就很高。
那下一個字的概率是如何計算的呢?概率本是數(shù)學的概念,文字和文字之間是不能進行數(shù)學運算的。所以機器會先把上文的文字,轉化成向量(數(shù)學上可以進行計算),通過對向量進行一系列復雜的計算和比對,最終來選擇下一個字。
這樣,通過利用上文和連續(xù)選擇最高概率的下一個字,機器就能夠生成連貫的文本。那什么樣的下一個字概率大呢?這與它與訓練數(shù)據(jù)(或者說,教導它的內容)的接近程度有關,越接近,概率就越大。
然而上文的組合形式是五花八門,即便兩種組合相似度很高,計算出的下一個字的概率分布也可能大相徑庭。這就解釋了為什么我們在問同樣的問題時,機器可能會給出不同的回答。這也幫助我們理解為什么提示詞能夠協(xié)助我們得到更佳的答案,因為提示詞為GPT提供了具體的上文環(huán)境。比如,如果我們先告訴GPT我是一名律師,那么在計算下一個字的概率分布時,與法律相關的字的概率就會顯著提高。
03
第三個問題:是如何訓練GPT讓它擁有上述能力的?
步驟一【預訓練】
GPT是如何進行訓練的呢?我們可以將其與我們背誦課文或古詩時的方式進行類比。想象一下,我們遮住下文,然后回憶,直到想起下一句是什么。GPT在訓練階段采用了類似的方法,稱為自回歸訓練。它會給定一段文字,遮住下文部分,然后嘗試猜測接下來的內容,如果猜錯了就重新嘗試,直到猜對為止。不同的是,機器會運用一些方法來調整模型參數(shù),以便更準確地猜測下一個字。這個過程被稱為無監(jiān)督學習,即不用老師去指出學生錯誤或者糾正,只需將數(shù)據(jù)或文本提供給機器,讓它自己學習。
通過大量的數(shù)據(jù)和無數(shù)次的計算,機器學會了按照人類的方式逐字生成內容。以GPT-3為例,它使用了45TB的文本數(shù)據(jù)進行訓練。如果我們假設一本書有200頁,每頁有500字,那么相當于GPT-3學習了4500億本書的內容。而現(xiàn)在的GPT-4,訓練的數(shù)據(jù)量更大,使其具備了更強大的生成能力。當這個過程完成時,也就稱完成了預訓練,GPT便擁有了通才的能力。
步驟二【微調】
然而,即使機器學會了文本生成,我們仍然需要防止它亂說話。因為在各類文本中,存在大量不適當?shù)膬热?,包括恐怖主義、歧視和臟話等。這就引入了第二步,即微調過程。簡而言之,我們使用規(guī)范的文本來糾正這個"話癆",當它說臟話時,我們告訴它"不可以";當有人詢問"如何安穩(wěn)地自殺"時,我們告訴它回答"要勸導提問者不要自殺,要熱愛生命"。這個過程被稱為監(jiān)督學習,就像有個老師在監(jiān)督機器學習,對于機器輸出的內容,是有標準答案的,如果回答不好,就重新回答。為什么叫微調呢,因為相比第一個步驟(預訓練),規(guī)模要小很多。正如需要培養(yǎng)一個紳士,在預訓練基礎上,你只需要規(guī)范他的禮儀即可。
步驟三【強化學習】
機器學會了說話并能夠正確表達,但如果它始終按照訓練文本的模式生成內容,就會變得呆板和缺乏創(chuàng)意。為了鼓勵機器生成更具創(chuàng)造性和獨特性的內容,引入了強化學習的方法,即基于人類反饋的強化學習(RLHF)。
RLHF的思想很簡單,當機器生成了我們認為不錯的回答時,我們給予它鼓勵;而當機器生成的回答不夠理想時,我們給予它批評或糾正。通過不斷的反饋和調整,機器能夠逐漸學會生成更加優(yōu)秀和獨特的回答。我們可以觀察到,在與chatGPT聊天時候,回答里會有“better”“worse”“same”的評價,這實際就是GPT在利用我們這些用戶對機器進行糾正,讓它知道什么樣的回答是我們喜歡的,機器就更傾向于生產那類回答。
04
問題四:訓練一個大模型和養(yǎng)一個聰明的孩子有什么不同
如果你能看到這里,你會發(fā)現(xiàn)訓練一個大模型和撫養(yǎng)一個小孩很像。小時候,讓他去接觸各種各樣的事物,然后通過正規(guī)教育規(guī)范他的行為,再同時通過獎懲去激發(fā)他的創(chuàng)造性。
但,他和撫養(yǎng)一個小孩有什么不同呢?
1、模型并不是真正學會了語言并了解了語言的意義,而是學會了一種承載了語言及意義的文字搭配方式。(請多讀3遍,有點繞口)而小孩是可以理解其意義的。
2、模型不是數(shù)據(jù)庫,不是你問問題后,它去龐大的數(shù)據(jù)庫里去找答案。而是,他學會了推理,知道了文字與文字之間的關系。你提問后,它按照它學到的推理結構,去產生你要的問題的答案,這并不是記憶。但小孩既有推理能力,也有記憶能力。
由此,就出現(xiàn)了大模型目前無法解決的問題,一把雙刃劍——生成性。
這一特性讓它能產生未見過的內容,是本次大模型技術飛躍的關鍵亮點。雖然大模型不理解自己生產的內容是什么,但它確實給我們提供了非常良好的體驗,如近似人的聊天。然而,這也帶來了問題,即模型的答案無法完全受到控制,無論微調或強化學習如何進行,始終存在不確定性,會生成一些我們不想要的答案。這就是模型幻覺,即使這種不可控隨著模型完善可以降低,但卻無法消除,這也是人工智能領域目前的一大挑戰(zhàn)。
就如同兒童玩具不應包含不適內容,游戲NPC的對話必須和游戲世界觀一致,教育工具不應違背核心價值觀一樣,內容生產需要可控。因此,大企業(yè)通常不會冒險采用成熟產品試水,即使這個風險的概率非常小。這樣的挑戰(zhàn)在很大程度上阻礙了大模型的商業(yè)應用,所以我們能看見大模型在資本圈火熱,但在商業(yè)上暫時未創(chuàng)造出與其匹配的價值。對于這個問題我們將在接下來的文章中進行探討,若有感興趣的話題,請留言。
注:以上僅為初步闡述GPT原理,為方便理解而進行簡化。實際操作過程中涉及各類復雜細節(jié),若需深入理解,建議查閱相關學術論文。
(本文僅代表作者個人觀點,供讀者參考。)