導讀 蘇喻博士,高級工程師,合肥人工智能研究院副研究員,原科大訊飛AI 教育研究院副院長,中國科學技術大學博士后,安徽省青少年信息學教育專委會秘書長,CCF 大專委-通訊委員,合肥市 D 類人才。蘇喻博士一直在智慧教育方向深耕,聚焦于青少年編程。面對數據稀疏和學習效果延時性問題,蘇喻博士團隊在教育領域大模型的研發(fā)中,技術上有如下三個方面的亮點:1)通過對偶數據的模型訓練與評估和歷史經驗注入實現(xiàn)青少年編程垂類大語言模型;2)基于分層知識圖譜和推理 prompt 生成實現(xiàn)基于小知識的大模型學習;3)融合知識追蹤模型和大模型仿真的強化認知推薦。產品應用上,蘇喻博士團隊開發(fā)了青蛙編程平臺、AI 編程學習機以及數字人 AI 錄播課平臺等。
本次的分享會圍繞下面五方面展開:
1. 智慧教育背景及挑戰(zhàn)
2. 教育領域大模型
3. 產品案例
4. 思考與展望
5. 問答環(huán)節(jié)
分享嘉賓|蘇喻博士 合肥人工智能研究院 副研究員
編輯整理|王帥 金山云
內容校對|李瑤
出品社區(qū)|DataFun
01
背景及挑戰(zhàn)
1. 背景
蘇喻博士,2011 年 7 月至 2022 年 2 月就職于科大訊飛研究院,歷任科大訊飛 AI 教育研究院副院長,AI 研究院認知群教育條線負責人,學習機業(yè)務線教研總監(jiān),重點負責教育領域個性化學習業(yè)務,包括個性化學習相關模型研究,產品設計,服務研發(fā)等,其研發(fā)的多項成果已經成功應用到訊飛智學網、訊飛智能學習機等相關產品中,于 2018 年獲得訊飛首屆華夏創(chuàng)新獎,獲 2020 年吳文俊人工智能科學技術獎科技進步一等獎。先后參與多項安徽省、部級等層面的重大項目科研工作,如國家自然科學基金重點項目、科技部重大專項等。其間獲得多項發(fā)明專利,并在 AAAI、KDD、IJCAI 等國際知名學術會議與期刊發(fā)表文章近 30 篇,其中 CCF 推薦會議論文 A 類文章 7 篇,中文核心期刊論文 5 篇,SCI 檢索英文期刊論文 10 篇。
(1)個性化學習
幾千年前,孔子提出因材施教的觀點,但受限于校內大班教學現(xiàn)狀,傳統(tǒng)教學方案無法滿足學生的個性化需求。
目前市場上的個性化教育產品呈現(xiàn)井噴的態(tài)勢,如科大訊飛的學習機、騰訊課堂、松鼠 AI(原易學)等,通過信息化及人工智能方法對學生能力進行診斷,并給出推薦。
(2)科大訊飛產品
科大訊飛學習機,自 2019 年開始發(fā)力至今成為頭部,主要提供給學生自主性、個性化的學習方案,節(jié)省學生時間,提高學生的學習興趣。平臺和教師通過學生在平板上的學習,分析學生的做題情況和能力水平,提供給學生一個個性化的知識圖譜,學生可依據該圖譜對薄弱知識點進行自主強化學習。同時,學習進展可視化,使學生可以了解每天的進步情況,提升學習興趣。
百度、作業(yè)幫等工具,針對考試錯題,通過拍搜即可得到正確答案,這樣容易導致學生抄答案不再深入思考。而科大訊飛的個性化學習手冊是基于考試情況和錯題,給每個學生推薦個性化的題目(無答案),同學間無法互相抄。此外,科大訊飛的產品對于試題有較好的表征,同時錯題推薦更具科學性。
①試題表征
多模態(tài)資源理解,將包括文本、立體幾何圖像、音頻等在內的試題獨立編碼到各自多模態(tài)的空間中。然后進行多模態(tài)的語義對齊、self attention、Multi task 等工作。一道題的知識點、考點、難度作為其標簽,這些信息全部映射為空間中的一個向量。傳統(tǒng)試題打標簽需要人工完成,一方面人工費高,另一方面主觀性強,一致率低。通過機器打標簽可以提高準確率。
②錯題推薦
根據學生做的一道錯題,通過一些相關的內容和語義推薦類似的題目,一方面在雙減的情況下,學生更容易掌握錯題相關的知識點;另一方面,教師可以針對上課中學生做錯的例題,搜集到相似題目作為學生的課堂作業(yè),提升備課效率。
③錯題難度-最近發(fā)展區(qū)理論
基于教育心理學中的最近發(fā)展區(qū)理論,推薦簡單的內容,學生覺得無趣、浪費時間;推薦太難的內容,會使學生喪失信心。因此推薦題目的難度非常關鍵,應是稍高于學生當前水平,可通過一定時間學習達到目標,感受到成就感,這樣才可以提升其學習興趣。
④實現(xiàn)方法-同分異構學生錯題
實現(xiàn)的方法是收集所有學生的答題記錄(百萬級別,當前到億級),放于教育認證診斷模型中,將學生的信息映射到一個空間里,通過尋找目標學生的同分異構學生(水平類似,知識結構有較小的差距),將同分異構學生的錯題推薦給目標學生。這是基于假定——該類錯題對于目標學生更容易學會。
⑤解釋性及可視化-知識圖譜
針對 C 端場景對于解釋性的需求,通過大量的學生數據,基于多模態(tài)的編碼,將學生的能力映射到一個知識圖譜上,為學生提供個性化的學習路徑,提升其學習效率和學習積極性。
- 圖譜的每一個節(jié)點代表知識點或知識點的組合
- 邊表征了知識點的前后繼承關系
- 顏色代表學習程度,如綠色代表學得好,紅色代表學得差,黃色代表學得一般。
學生基于該圖譜,可進行一系列操作,如針對紅色的知識點,點擊后會出現(xiàn)一條設計好的學習路徑。
(3)青少年編程
素質教育-編程領域,學生對個性化學習的需求更多,難度更大。除了中小學生外,高校學生在上編程實驗課時,也會遇到各種問題,老師也會遇到無法針對每個學生的問題一一解答的困境。青少年編程課程,無論是公立校還是教培,即使小班也會是 1 對 6,每個學生在每分鐘都會有其個性化的問題(如調不通)等待老師回答。公立校中,老師會嘗試性將大部分同學搞不定的問題的標準答案放于屏幕上,私立校會基于學費和學時,重點支持解決問題,但仍難以滿足個性化學習的需求。
①OJ 試題
此外,編程教育中會采用 OJ 試題,與傳統(tǒng)教育試題不同,會對題目有要求,OJ 試題的題面要求包含題目描述,規(guī)定了輸入輸出規(guī)范。一個 OJ 試題包含多組用例,一個代碼用例由一個輸入和一個輸出組成,測試學生所寫的代碼是否符合預期。
②個性化編程平臺
個性化編程平臺包含代碼修復、代碼提示、輔學指引三部分。
- 代碼修復
學生寫完代碼后,基于大模型的認知診斷,對代碼進行修復,根據學生當前的水平,給出代碼提示和步驟。
- 代碼提示
基于研發(fā)的底層編譯器,為用戶提供了中文 debug 界面,此外還會針對學生的基礎語法等彈出相應的知識卡片。這樣可以解決用戶 80% 到 90% 的個性化問題。
- 輔學指引
基于上述代碼提示,教師只需解決 10% 的共性難點問題,有助于將編程學習順暢地進行下去,提升學生的編程積極性。
2. 挑戰(zhàn)
(1)數據稀疏
當前大數據的量很大,但數據稀疏。如平臺雖然存在海量的學生編程數據、答題數據,但對于某一個學生的記錄是有限的。如何根據學生在平臺做的幾道編程題,對其進行很好的診斷,是一大挑戰(zhàn)。同樣,數據稀疏的挑戰(zhàn)也存在于其他領域,如醫(yī)療大模型,企業(yè)可獲得很多病人的案例,但平臺上某一個人的病例,可能只有一兩例。
(2)學習延時性
針對學生的推薦,是否使其學習能力提升,能否通過編程等級考試,是無法即刻體現(xiàn)的。學習型的問題,其推薦的收益不易監(jiān)控,學習效果會延后體現(xiàn)(可能很多天,甚至半年)。
純 C 端的廣告推薦,相對更容易體現(xiàn)效果,推薦內容后,是否點擊、購買等都可以通過打點獲取到效果信息。
02
教育領域大模型
應用大語言模型去輔助青少年編程,一方面依賴大語言模型的 NLG(Natural Language Generation)能力,可對提示做出連貫且符合上下文的文本回應,另一方面憑借大模型的 Zero-shot 或 Few-shot 的學習能力,可以幫助理解新任務,并在最小提示和樣本下達到有利結果。此外,大語言模型也展現(xiàn)了強大的跨領域泛化能力。
針對數據稀疏或者個人真實數據較少的現(xiàn)狀,如何實現(xiàn) Zero-shot 能力?是否可以基于其他領域的知識,通過大模型實現(xiàn)泛化學習?團隊就此開展了以下幾個工作:一是青少年編程垂類大語言模型,二是基于小知識的大模型學習,三是基于大模型的仿真強化認知推薦。
垂類大語言模型和小知識大模型主要解決數據稀疏性的挑戰(zhàn),基于大模型的仿真強化認知推薦解決收益閉環(huán)太長的問題。
1. 編程垂類大語言模型
編程垂類大模型構建流程主要包括數據獲取、模型訓練和知識注入三個步驟。
(1)數據獲取
通過對成熟優(yōu)秀的 LLM 提問,讓其模仿孩子給出錯誤代碼。在編程領域這種做法的一大問題是,得到的回答可能經常是一些簡單的語法錯誤,比如缺少一半括號,這對于編程領域大模型是沒有幫助的。
因此,我們構建了生成數據鑒別器,來區(qū)分生成的數據和真實的數據。
同時,我們也通過 Prompt 生成器,來自動生成更為真實的指令。
最終,基于這樣兩個模型的對抗神經網絡進行錯誤代碼生成,使得生成數據的分布與真實數據非常接近。
(2)模型訓練(Fine Tuning)
在開源大模型 LLaMA 基礎上,通過 Lora 微調生成代碼相關的垂類大模型,實現(xiàn)輸入錯誤代碼,生成正確代碼。然而有時錯誤代碼修正后,雖與標準答案很像,但仍存在一些邏輯上的錯誤,無法通過測試用例。
因此提供了測試評估的接口,對答案進行評分。整個微調有兩個監(jiān)督信號,本質上有兩個 loss,首先要求修復的代碼與標準答案很像,第二要通過測試用例,通過得越多,評分越高。這一工作,我們稱之為對偶數據,因為標準答案和測試用例在本質上是對同一事物的兩種描述。
(3)基于歷史經驗的知識注入
由于原始數據量不同,通過歷史經驗,將成功修復案例持續(xù)注入本地嵌入向量庫中,通過提示相似錯誤解決的歷史經驗,提高模型修復的準確率。
- 高質量數據積累:現(xiàn)實中學生寫出的錯誤代碼,基于報錯信息修正后得到正確答案,這一系列真實數據作為歷史經驗持續(xù)注入知識庫中;
- 嵌入向量庫:將上述數據放入編程垂類大模型中,把大模型作為編碼器,將其轉為向量存放于一個嵌入向量庫中;
- 輸入信息增強:通過在線編譯器,將新的學生寫出的錯誤代碼生成報錯信息;
- 篩選排序,找到協(xié)同數據:在編碼后的知識庫當中檢索與新學生的嵌入向量(原始問題)類似的問題,生成一個極為復雜的 prompt;
- 請求修復:將上述包含相似錯誤解決歷史經驗的 prompt 輸入到大語言模型中,請求修復,提高修復的準確率。
如上圖測試了四個大模型—GPT3.5、LLAMA2、Vicuna-13B 和文心一言,經過歷史經驗知識注入后嵌入式尋找協(xié)同數據,使得大模型的代碼能力較原來未采用知識注入的效果有較大的提升。
此外,以代碼修復為例,與 ChatGPT3.5 對比,經過上述知識注入后微調的結果,在關鍵字錯誤、分號缺失、括號不匹配、變量類型錯誤等方面都有提升,平均提升 20%,大部分任務優(yōu)于 GPT3.5。
2. 小知識學習
在微調中,通常面臨如下的問題:基于整理好的垂類領域數據,如 TB 級別的數據灌入到大模型中,但是大模型只能對已經輸入的特定知識進行回答,泛化一些的問題,則完全無法給出答案。如何基于小的垂類知識,激活大模型相關能力?下面以知識問答為例,介紹基于小知識的大語言模型學習。
多層知識體系:我們采用人機耦合方式構建分層知識圖譜,下層為粒度細的知識點,上層為泛化的知識。利用大模型,自己挖掘節(jié)點之間的關系。
示例:二分查找怎么做?
- 知識查找:將二分查找問題的關鍵點抽取出來,并映射到圖譜上,找到所有相關的分層圖譜,建立相關性連接;
- 推理圖構建:在局部知識圖譜上進行簡單推理;
- 知識推理:基于圖將其變成一個 prompt,并放入大模型中;
這樣,將二分查找的相關細節(jié)輸入到大模型中進行微調,經過微調的大模型更有機會激發(fā)得到正確的答案。
多輪迭代的大語言模型小知識學習
示例:學生問循環(huán)累加哪里錯了?
- 未調整前的 Prompt:直接問循環(huán)累加怎么做,大模型給到的答案較敷衍,無法解決學生的問題。
- 調整后的 Prompt:基于推理圖,給到更精準的 Prompt。
- 基于 GPT4 進行回答評分,調整前基本 10 道題有 6 道題答得不錯,調整后 10道題會有 8 道題回答較好,有了大幅提升。
知識注入后,大模型了解了概念,但是仍然無法回答問題,原因在于 prompt 不夠好。通過模仿 prompt 工程師,可以有效提升大模型的效果。這樣解決了只是簡單將語料給到大模型,大模型沒有辦法激活相關能力的問題。
3. 強化認知推薦
由于給學生推薦學習路徑的收益顯現(xiàn)歷時較長,如何評判哪個學習路徑推薦更好呢?兩個水平近似但知識分布不同的學生,推薦的學習路徑也應不同。面對上述挑戰(zhàn),我們采用了強化學習的方案,推薦模型即為 Agent,缺乏的環(huán)境通過大模型模擬生成,也即基于大模型的仿真強化認知推薦。
融合大模型和傳統(tǒng)深度知識追蹤模型,模擬環(huán)境的收益和狀態(tài)變化情況。
- 給出狀態(tài),如推薦一道題后,學生狀態(tài)發(fā)生哪些變化。
- 推薦一道題后,基于領域的函數,得出其即時的收益。
學生的知識圖譜:
- 黃色:待學習的知識點
- 藍色:推薦學習知識點
- 綠色:已掌握知識點
- 紅色:未掌握知識點
通過大模型解決了沒有交互數據(即推薦學習后狀態(tài)和收益數據)實現(xiàn)強化學習的問題。
在原來比較小規(guī)模數據中,實現(xiàn)學會一道題,按照之前邏輯可能需要 9 步,通過當前的方式,提高推薦能力,解決同一道題目,只需要更少的步驟。
在中等知識點學習中,強化認知推薦比普通的認知推薦平均步驟下降了 30%,有更高的學習效率。
03
產品案例
1. 青蛙編程平臺
上述教育大模型,已集成于青蛙(找 bug)編程平臺和 AI 編程學習機中。
青蛙編程平臺可以實現(xiàn) AI 自主學習,基于知識卡進行智能交互式練習,更加輕松有趣。當前已與多位名師、多家機構合作,服務 2 萬 + 學生,基于數據驅動的教學更高效、精準。
上述技術已經發(fā)表 40 論文、10 專利。
2. AI 編程學習機
AI 編程學習機采用了墨水屏幕,無藍光,更護眼。
智能教輔示例:
學生:這道題怎么做?
大模型:給出一些提示
學生:基于提示還是不會做,怎么辦?
大模型:給出正確答案
學生:將正確答案抄寫后,編譯通過,但未通過測試用例
大模型:英語少了一個字母
學生:終于完成這道題目
智能教輔一方面解決了通常只能一對一才能解決的問題,另一方面孩子自主完成題目,提升其自信心和學習興趣。同時可以讓教師集中精力解決共性的難點問題。
3. 智能云端編譯器
平臺中集成了青少智慧編譯器(智能云端編譯器),超過行業(yè)頭部品牌。
編譯器具有如下四大優(yōu)勢:
- 更輕便:云端免安裝,降低對硬件的要求
- 更智能:內置青少編程大模型,可智能糾錯
- 更專業(yè):內置各種編程環(huán)境,減少出錯的問題
- 更簡單:編譯器漢化,降低調試的門檻。
4. 數字人 AI 錄播課平臺
錄播課通常為老師持續(xù)輸出內容,學生可能無法長時間專注。基于數字人的 AI 錄播課平臺,提供了個性化課程、智能化老師、精準化練習。
- 虛擬老師可實現(xiàn)針對學生的問題,實時回答,提高互動性。
- 根據學生的歷史信息以及錄播課的情況、編程情況,可生成個性化編程題目,提高學習的趣味性。
如下為一段示例:
虛擬老師:如圖,目前公認的在中國適用的 BMI 標準是:當 BMI 小于等于 18.4,說明你的體重偏瘦。當 BMI 大于 18.4,小于等于 23.9,說明你的體重正常。當 BMI 大于 23.9 且小于等于 28.0,就是過重。當 BMI 大于 28.0 就達到肥胖程度。
孟同學:為什么 BMI 大于 28 是肥胖而不是 27?
虛擬老師:BMI 大于 28 被定義為肥胖是基于大量的研究和統(tǒng)計數據得出的結論,這個標準是根據全球范圍內的人群數據進行分析得出的。不同的人群可能有不同的標準,但是 28 是一個被廣泛接受的標準。
青蛙編程平臺以及數字人 AI 錄播課平臺,涵蓋優(yōu)質的學習資源,可對標行業(yè)頭部品牌,集成了智能云端編譯器,已經超過行業(yè)頭部品牌,與金牌教練名師合作制作專屬AI 錄播課,打造私人專屬課堂。
04
思考與展望
1. 大模型 VS.“小模型”
大模型能力全面,但存在如下限制:
(1)計算資源需求大
- 高性能計算機、專用加速器(如 GPU、TPU 等)。
- 大量的存儲空間。
(2)訓練時間長
通常需要數天甚至數周的時間,需要高效的算法和硬件加速訓練過程。
(3)不易定制
- 通常達到千億級別的參數才能實現(xiàn)特殊能力的涌現(xiàn),不易定制。
- 垂類大模型做完后,到實現(xiàn)上線和 B 端機仍有很多工作要做。
中小廠的取勝之道,降低模型 size、做定制化、本地化。
- 利用網絡剪枝、向量量化、低秩近似等技術減少大模型的參數。
- 利用知識蒸餾等技術將大模型的特殊能力遷移到小規(guī)模網絡參數的模型。
2. 融入領域知識
在通用大模型上,小公司與大公司有較大的差距,但小公司基于小而美的專家團隊,融入領域知識,結合知識圖譜,可以在垂類大模型上贏得先機。
3. “人工的智能”在于精細化的數據
“人工的智能”勝在垂類的精細化數據。中小廠做垂類大模型的商業(yè)模式,一定不是花錢做標注,那將需要非常大的資金成本。中小公司可通過設計商業(yè)模式,讓用戶免費“幫忙”標數據。例如,我們有虛擬老師、自主編程平臺,孩子在完成代碼的修訂過程中,就是在幫忙標記數據,隨著業(yè)務的推廣,數據飛輪效應將逐漸顯現(xiàn)。
05
問答環(huán)節(jié)
Q1:貴司的教育大模型是如何訓練微調的?
A1:由于當前很多大模型相關訓練和微調的技巧未寫專利和論文,今日更多分享的是思路,用的還是通用的一些方法,如 SFT 等。
Q2:小知識學習中,客體知識多,但是單個用戶(主體)的知識很少的問題,是如何來增強解決的?
A2:對于主體知識的補足,我們基于對抗神經網絡,通過仿真生成更多的主體數據。例如,一個學生在平臺做了三道題,基于其他學生的題目,通過大模型仿真模擬學生做第四道題、第五道題、第六道題。同時基于對抗神經網絡實現(xiàn)模擬的題目與學生的真實水平一致。
以上就是本次分享的內容,謝謝大家。
版權聲明:本文內容由互聯(lián)網用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權/違法違規(guī)的內容, 請發(fā)送郵件至 舉報,一經查實,本站將立刻刪除。