一種基于偽標(biāo)簽學(xué)習(xí)的安全補丁分類方法及系統(tǒng)

文檔序號：42300914發(fā)布日期：2025-06-27 18:43閱讀：21來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本技術(shù)屬于漏洞類型分類領(lǐng)域，更具體地，涉及一種基于偽標(biāo)簽學(xué)習(xí)的安全補丁分類方法及系統(tǒng)。

背景技術(shù)：

1、在當(dāng)前的軟件工程領(lǐng)域，開源軟件已被廣泛應(yīng)用于商業(yè)/非商業(yè)產(chǎn)品的軟件供應(yīng)鏈中。與此同時，開源軟件的漏洞也被廣泛傳播，下游開源軟件用戶需要及時發(fā)現(xiàn)并修復(fù)上游開源軟件中的漏洞。在漏洞修復(fù)過程中，漏洞類型信息十分重要，它可以幫助開發(fā)者了解漏洞的根本原因、可能的影響和要部署的緩解措施類型。因此，對安全補丁按照漏洞類型進行分類十分重要。

2、研究者們提出了許多方法來進行安全補丁的分類，其中，基于深度學(xué)習(xí)的方法因其能夠自動從代碼中提取特征、識別復(fù)雜模式而引起了廣泛關(guān)注。這些方法在安全補丁漏洞類型的分類中取得了一定的進展，尤其是在減少人工干預(yù)和提高分類效率方面，顯示了其強大的潛力。然而，盡管基于深度學(xué)習(xí)的技術(shù)取得了一定的成果，其分類性能仍然存在一定的局限性，主要原因在于缺乏高質(zhì)量的訓(xùn)練數(shù)據(jù)，但當(dāng)前的標(biāo)注數(shù)據(jù)集的獲取存在不少挑戰(zhàn)。

3、一方面，人工代碼審查往往需要具備深厚的專家知識，不僅時間成本高，而且容易受到人為偏差的影響。另一方面，利用現(xiàn)有的靜態(tài)分析工具生成標(biāo)注數(shù)據(jù)集雖然在一定程度上能夠加速標(biāo)注過程，但其生成的數(shù)據(jù)存在較高的誤報率，進一步影響了數(shù)據(jù)的質(zhì)量和模型的訓(xùn)練效果。

4、因此，在當(dāng)前的深度學(xué)習(xí)方法中，如何利用無標(biāo)簽數(shù)據(jù)進行有效學(xué)習(xí)，克服標(biāo)注數(shù)據(jù)不足的瓶頸，提高分類的準(zhǔn)確性和魯棒性，是當(dāng)前技術(shù)中亟待解決的關(guān)鍵問題。

技術(shù)實現(xiàn)思路

1、針對現(xiàn)有技術(shù)的缺陷，本技術(shù)的目的在于提供一種基于偽標(biāo)簽學(xué)習(xí)的安全補丁分類方法及系統(tǒng)，旨在解決目前安全補丁漏洞類型分類準(zhǔn)確率不高的問題。

2、為實現(xiàn)上述目的，第一方面，本技術(shù)提供了一種基于偽標(biāo)簽學(xué)習(xí)的安全補丁分類方法，包括：

3、獲取待分類的安全補??；

4、對所述安全補丁進行特征提取，得到關(guān)鍵語義特征；

5、將所述關(guān)鍵語義特征輸入到訓(xùn)練好的安全補丁模型中，得到所述安全補丁的分類結(jié)果；

6、其中，所述安全補丁模型是通過對安全相關(guān)補丁數(shù)據(jù)集和無標(biāo)簽補丁數(shù)據(jù)集進行關(guān)鍵語義信息提取，并根據(jù)所述關(guān)鍵語義信息進行偽標(biāo)簽學(xué)習(xí)得到的。

7、可選地，所述安全補丁模型的獲取方法包括：

8、排除與安全無關(guān)的修復(fù)內(nèi)容，提取與漏洞相關(guān)的關(guān)鍵變量，并利用代碼切片技術(shù)結(jié)合數(shù)據(jù)流分析確定漏洞觸發(fā)點，根據(jù)關(guān)鍵變量和漏洞觸發(fā)點整合為關(guān)鍵語義信息；

9、利用有標(biāo)簽安全補丁的訓(xùn)練集訓(xùn)練得到初始教師模型，利用初始教師模型為無標(biāo)簽安全補丁生成偽標(biāo)簽，通過共識算法結(jié)合所述關(guān)鍵語義信息篩選出高質(zhì)量偽標(biāo)簽樣本并加入有標(biāo)簽安全補丁的訓(xùn)練集對初始教師模型進行迭代訓(xùn)練，直至得到訓(xùn)練好的安全補丁分類模型。

10、可選地，所述關(guān)鍵語義信息提取的過程具體包括：

11、分析所述安全相關(guān)補丁數(shù)據(jù)集的補丁的代碼修改，標(biāo)注代碼修改塊是否與安全修復(fù)相關(guān)，得到候選樣本集；

12、利用相似補丁檢索法從候選樣本集中選取安全相關(guān)補丁數(shù)據(jù)集的輸入補丁的相似樣本，根據(jù)所述相似樣本構(gòu)造少樣本提示；

13、利用大語言模型根據(jù)所述少樣本提示排除安全補丁中與漏洞無關(guān)的代碼修改塊；

14、對安全補丁的代碼修改進行分析總結(jié)修補特征，根據(jù)修補類型和修補行類型設(shè)計提取規(guī)則，利用所述提取規(guī)則提取代碼修改中的關(guān)鍵變量；

15、根據(jù)不同的漏洞類型制定相應(yīng)的漏洞觸發(fā)點規(guī)則，基于所述關(guān)鍵變量和漏洞觸發(fā)點規(guī)則進行數(shù)據(jù)流分析，直至分析到達預(yù)設(shè)深度，得到符合所述漏洞觸發(fā)點規(guī)則的代碼數(shù)據(jù)；

16、根據(jù)所述代碼數(shù)據(jù)、關(guān)鍵變量以及代碼數(shù)據(jù)和關(guān)鍵變量之間的數(shù)據(jù)流，確定漏洞相關(guān)代碼以作為所述關(guān)鍵語義信息。

17、可選地，所述安全補丁分類模型的訓(xùn)練過程包括：

18、確定所述初始教師模型包括代碼修改分類模型和文本描述分類模型；

19、利用標(biāo)注了漏洞類型標(biāo)簽的安全補丁代碼修改訓(xùn)練代碼修改分類模型，利用標(biāo)注了漏洞類型標(biāo)簽的安全補丁文本描述訓(xùn)練文本描述分類模型；

20、分別利用代碼修改分類模型和文本描述分類模型為無標(biāo)簽安全補丁的進行代碼修改預(yù)測和文本描述預(yù)測，生成偽標(biāo)簽；

21、采用基于代碼修改和文本描述的共識算法并結(jié)合關(guān)鍵語義信息，對生成的偽標(biāo)簽進行確認，篩選得到高質(zhì)量的偽標(biāo)簽樣本，加入有標(biāo)簽安全補丁的訓(xùn)練集，對初始教師模型進行迭代訓(xùn)練，直至得到訓(xùn)練好的安全補丁分類模型。

22、可選地，所述數(shù)據(jù)流分析的過程包括：

23、構(gòu)建代碼的數(shù)據(jù)流圖；

24、在所述數(shù)據(jù)流圖中定位所述關(guān)鍵變量的目標(biāo)節(jié)點；

25、從所述目標(biāo)節(jié)點出發(fā)遍歷以匹配漏洞觸發(fā)點，在遇到函數(shù)調(diào)用語句的情況下調(diào)整到被調(diào)用函數(shù)的程序依賴圖并繼續(xù)遍歷，直至到達預(yù)設(shè)深度，得到符合所述漏洞觸發(fā)點規(guī)則的代碼數(shù)據(jù)。

26、可選地，所述初始教師模型訓(xùn)練過程的損失函數(shù)的計算方法包括：

27、計算有標(biāo)簽安全補丁的預(yù)測值和實際標(biāo)簽之間的第一損失；

28、計算偽標(biāo)簽樣本的預(yù)測值和偽標(biāo)簽之間的第二損失；

29、將所述第一損失和第二損失的加權(quán)和作為模型訓(xùn)練的總損失。

30、可選地，偽標(biāo)簽的獲取過程包括：

31、對安全補丁的文本描述和代碼修改的預(yù)測結(jié)果進行概率排序，分別選取前k個類別；

32、若前k個類別中存在相同類別，則選擇具有最大平均概率的類別作為偽標(biāo)簽；若前k個類別中不存在相同類別，將當(dāng)前樣本丟棄。

33、第二方面，本技術(shù)還提供一種基于偽標(biāo)簽學(xué)習(xí)的安全補丁分類系統(tǒng)，包括：

34、獲取模塊，用于獲取待分類的安全補丁；

35、特征提取模塊，用于對所述安全補丁進行特征提取，得到關(guān)鍵語義特征；

36、分類模塊，用于將所述關(guān)鍵語義特征輸入到訓(xùn)練好的安全補丁模型中，得到所述安全補丁的分類結(jié)果；

37、其中，所述安全補丁模型是通過對安全相關(guān)補丁數(shù)據(jù)集和無標(biāo)簽補丁數(shù)據(jù)集進行關(guān)鍵語義信息提取，并根據(jù)所述關(guān)鍵語義信息進行偽標(biāo)簽學(xué)習(xí)得到的。

38、可選地，所述安全補丁模型包括：

39、關(guān)鍵語義信息提取模塊，用于排除與安全無關(guān)的修復(fù)內(nèi)容，提取與漏洞相關(guān)的關(guān)鍵變量，并利用代碼切片技術(shù)結(jié)合數(shù)據(jù)流分析確定漏洞觸發(fā)點，根據(jù)關(guān)鍵變量和漏洞觸發(fā)點整合為關(guān)鍵語義信息；

40、偽標(biāo)簽學(xué)習(xí)模塊，用于利用有標(biāo)簽安全補丁的訓(xùn)練集訓(xùn)練得到初始教師模型，利用初始教師模型為無標(biāo)簽安全補丁生成偽標(biāo)簽，通過共識算法結(jié)合所述關(guān)鍵語義信息篩選出高質(zhì)量偽標(biāo)簽樣本并加入有標(biāo)簽安全補丁的訓(xùn)練集對初始教師模型進行迭代訓(xùn)練，直至得到訓(xùn)練好的安全補丁分類模型。

41、第三方面，本技術(shù)提供一種電子設(shè)備，包括：至少一個存儲器，用于存儲程序；至少一個處理器，用于執(zhí)行存儲器存儲的程序，當(dāng)存儲器存儲的程序被執(zhí)行時，處理器用于執(zhí)行第一方面或第一方面的任一種可能的實現(xiàn)方式所描述的方法。

42、第四方面，本技術(shù)提供一種計算機可讀存儲介質(zhì)，計算機可讀存儲介質(zhì)存儲有計算機程序，當(dāng)計算機程序在處理器上運行時，使得處理器執(zhí)行第一方面或第一方面的任一種可能的實現(xiàn)方式所描述的方法。

43、第五方面，本技術(shù)提供一種計算機程序產(chǎn)品，當(dāng)計算機程序產(chǎn)品在處理器上運行時，使得處理器執(zhí)行第一方面或第一方面的任一種可能的實現(xiàn)方式所描述的方法。

44、可以理解的是，上述第二方面至第五方面的有益效果可以參見上述第一方面中的相關(guān)描述，在此不再贅述。

45、總體而言，通過本技術(shù)所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比，具有以下有益效果：

46、（1）本技術(shù)通過利用有標(biāo)簽的安全補丁數(shù)據(jù)集以及無標(biāo)簽補丁數(shù)據(jù)集生成偽標(biāo)簽，能夠在數(shù)據(jù)量有限的情況下擴展訓(xùn)練集，從而顯著提升分類模型的學(xué)習(xí)效果和準(zhǔn)確性。結(jié)合關(guān)鍵語義信息的學(xué)習(xí)，模型能夠更好地理解和分類補丁的特性，尤其是與漏洞修復(fù)高度相關(guān)的變量。本技術(shù)通過精細化的訓(xùn)練方式提高模型在真實場景中對安全補丁的分類有效性，提高安全補丁的分類準(zhǔn)確率和魯棒性。

47、（2）本技術(shù)通過共識算法篩選高質(zhì)量的偽標(biāo)簽樣本，通過從不同來源的補丁中提取關(guān)鍵特征，結(jié)合相似度檢索與少樣本提示，增加了訓(xùn)練數(shù)據(jù)的多樣性，使得模型能夠應(yīng)對更復(fù)雜的補丁形式和修復(fù)類型。在有效增強模型泛化能力的同時，能夠降低過擬合的風(fēng)險。

48、（3）本技術(shù)通過自動提取關(guān)鍵語義特征，利用代碼切片技術(shù)和數(shù)據(jù)流分析來識別漏洞觸發(fā)點，實現(xiàn)了補丁分類過程的自動化。自動化的提取與確認過程不僅降低了人工干預(yù)的需求，還大幅提高了處理速度與效率。相比傳統(tǒng)的手動標(biāo)注過程，模型訓(xùn)練和偽標(biāo)簽生成的快速迭代使得整個補丁分類的工作流更加高效，能夠在短時間內(nèi)適應(yīng)快速變化的安全環(huán)境，提高了整體的反應(yīng)能力。

49、（4）本技術(shù)通過提取與漏洞類型高度相關(guān)的關(guān)鍵語義信息作為模型輸入樣本，從而顯著提高了樣本質(zhì)量，使得模型更容易學(xué)習(xí)到漏洞類型的特征。相比于傳統(tǒng)的偽標(biāo)簽學(xué)習(xí)方法，本技術(shù)采用基于補丁文本和代碼修改的共識算法來篩選偽標(biāo)簽樣本，在保證了偽標(biāo)簽準(zhǔn)確性的同時也保證了偽標(biāo)簽樣本數(shù)量充足。本技術(shù)的偽標(biāo)簽學(xué)習(xí)模塊可與現(xiàn)有基于深度學(xué)習(xí)的安全補丁分類方法結(jié)合，進一步增強其分類效果。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李珍,王虎,王可馨,鄒德清
技術(shù)所有人：華中科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

女同另类啪啪视频,男人天堂av在线亚洲,免费入口网站黄色,毛片大全在线观看,黄色视频在线观看免费h片,直接看的欧美特一级黄碟,四虎精品久久久

一種基于偽標(biāo)簽學(xué)習(xí)的安全補丁分類方法及系統(tǒng)