女同另类啪啪视频,男人天堂av在线亚洲,免费入口网站黄色,毛片大全在线观看,黄色视频在线观看免费h片,直接看的欧美特一级黄碟,四虎精品久久久

面向煤炭行業(yè)科技文獻(xiàn)的知識(shí)分級(jí)提取方法與流程

文檔序號(hào):42300945發(fā)布日期:2025-06-27 18:43閱讀:28來源:國知局

本發(fā)明涉及自然語言處理,尤其涉及一種面向煤炭行業(yè)科技文獻(xiàn)的知識(shí)分級(jí)提取方法。


背景技術(shù):

1、由于煤炭行業(yè)的專業(yè)性和復(fù)雜性,科技文獻(xiàn)中蘊(yùn)含著大量的行業(yè)知識(shí)和實(shí)踐經(jīng)驗(yàn),這些知識(shí)和經(jīng)驗(yàn)是構(gòu)建智能化煤礦的重要基礎(chǔ)。然而,傳統(tǒng)科技文獻(xiàn)的信息提取方法難以高效地處理這些海量的、非結(jié)構(gòu)化的科技文獻(xiàn)數(shù)據(jù),導(dǎo)致智能化煤礦對(duì)應(yīng)模型在生成應(yīng)答時(shí)可能出現(xiàn)偏差或異常,即生成與實(shí)際情況不符或缺乏準(zhǔn)確性的信息。故亟需一種更可靠的面向煤炭行業(yè)科技文獻(xiàn)的知識(shí)分級(jí)提取方法。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。

2、為此,本發(fā)明的第一個(gè)目的在于提出一種面向煤炭行業(yè)科技文獻(xiàn)的知識(shí)分級(jí)提取方法,通過pdf文檔處理、標(biāo)題分級(jí)模型、面向標(biāo)題的標(biāo)識(shí)符規(guī)則庫,提高面向煤炭行業(yè)科技文獻(xiàn)的知識(shí)分級(jí)提取的準(zhǔn)確率和效率。

3、本發(fā)明的第二個(gè)目的在于提出一種面向煤炭行業(yè)科技文獻(xiàn)的知識(shí)分級(jí)提取裝置。

4、本發(fā)明的第三個(gè)目的在于提出一種電子設(shè)備。

5、本發(fā)明的第四個(gè)目的在于提出一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。

6、為達(dá)上述目的,本發(fā)明第一方面實(shí)施例提出了一種面向煤炭行業(yè)科技文獻(xiàn)的知識(shí)分級(jí)提取方法,所述方法包括:

7、將pdf格式的煤炭行業(yè)科技文獻(xiàn)轉(zhuǎn)換為純文本md格式的煤炭行業(yè)文檔,并將煤炭行業(yè)文檔中每一行的行首含有的非文本標(biāo)識(shí)符刪除,以得到目標(biāo)煤炭行業(yè)文檔;

8、定義面向標(biāo)題的標(biāo)識(shí)符規(guī)則庫,標(biāo)識(shí)符規(guī)則庫包括根據(jù)各級(jí)別標(biāo)題的語言類型定義的語言標(biāo)識(shí)符,以及各級(jí)別標(biāo)題各自對(duì)應(yīng)的級(jí)別標(biāo)識(shí)符;

9、利用大模型分別合成多個(gè)不同級(jí)別訓(xùn)練標(biāo)題及各級(jí)別訓(xùn)練標(biāo)題的訓(xùn)練正文,以組建標(biāo)題分類數(shù)據(jù)集,再結(jié)合預(yù)訓(xùn)練語言模型,提取訓(xùn)練標(biāo)題及訓(xùn)練正文的語義特征,訓(xùn)練決策樹分類算法,以得到標(biāo)題分級(jí)模型;

10、通過標(biāo)題分級(jí)模型識(shí)別出目標(biāo)煤炭行業(yè)文檔中的多個(gè)目標(biāo)級(jí)別標(biāo)題、及各目標(biāo)級(jí)別標(biāo)題的正文;

11、根據(jù)標(biāo)識(shí)符規(guī)則庫在各目標(biāo)級(jí)別標(biāo)題的行首分別添加目標(biāo)語言標(biāo)識(shí)符及各自對(duì)應(yīng)的目標(biāo)級(jí)別標(biāo)識(shí)符,結(jié)合添加目標(biāo)語言標(biāo)識(shí)符和目標(biāo)級(jí)別標(biāo)識(shí)符后的各目標(biāo)級(jí)別標(biāo)題及正文組建成標(biāo)準(zhǔn)的md文本文件;

12、根據(jù)用戶的問題請求信息,生成對(duì)應(yīng)的正則化匹配標(biāo)識(shí)符,以在所述md文本文件匹配到目標(biāo)級(jí)別標(biāo)題,并進(jìn)行目標(biāo)級(jí)別標(biāo)題下正文的定向知識(shí)分級(jí)提取,以得到問題請求信息的提取文本。

13、為達(dá)上述目的,本發(fā)明第二方面實(shí)施例提出了一種面向煤炭行業(yè)科技文獻(xiàn)的知識(shí)分級(jí)提取裝置,所述裝置包括:

14、轉(zhuǎn)換模塊,用于將pdf格式的煤炭行業(yè)科技文獻(xiàn)轉(zhuǎn)換為純文本md格式的煤炭行業(yè)文檔,并將煤炭行業(yè)文檔中每一行的行首含有的非文本標(biāo)識(shí)符刪除,以得到目標(biāo)煤炭行業(yè)文檔;

15、定義模塊,用于定義面向標(biāo)題的標(biāo)識(shí)符規(guī)則庫,標(biāo)識(shí)符規(guī)則庫包括根據(jù)各級(jí)別標(biāo)題的語言類型定義的語言標(biāo)識(shí)符,以及各級(jí)別標(biāo)題各自對(duì)應(yīng)的級(jí)別標(biāo)識(shí)符;

16、訓(xùn)練模塊,用于利用大模型分別合成多個(gè)不同級(jí)別訓(xùn)練標(biāo)題及各級(jí)別訓(xùn)練標(biāo)題的訓(xùn)練正文,以組建標(biāo)題分類數(shù)據(jù)集,再結(jié)合預(yù)訓(xùn)練語言模型,提取訓(xùn)練標(biāo)題及訓(xùn)練正文的語義特征,訓(xùn)練決策樹分類算法,以得到標(biāo)題分級(jí)模型;

17、識(shí)別模塊,用于通過標(biāo)題分級(jí)模型識(shí)別出目標(biāo)煤炭行業(yè)文檔中的多個(gè)目標(biāo)級(jí)別標(biāo)題、及各目標(biāo)級(jí)別標(biāo)題的正文;

18、組建模塊,用于根據(jù)標(biāo)識(shí)符規(guī)則庫在各目標(biāo)級(jí)別標(biāo)題的行首分別添加目標(biāo)語言標(biāo)識(shí)符及各自對(duì)應(yīng)的目標(biāo)級(jí)別標(biāo)識(shí)符,結(jié)合添加目標(biāo)語言標(biāo)識(shí)符和目標(biāo)級(jí)別標(biāo)識(shí)符后的各目標(biāo)級(jí)別標(biāo)題及正文組建成標(biāo)準(zhǔn)的md文本文件;

19、提取模塊,用于根據(jù)用戶的問題請求信息,生成對(duì)應(yīng)的正則化匹配標(biāo)識(shí)符,以在所述md文本文件匹配到目標(biāo)級(jí)別標(biāo)題,并進(jìn)行目標(biāo)級(jí)別標(biāo)題下正文的定向知識(shí)分級(jí)提取,以得到問題請求信息的提取文本。

20、為達(dá)上述目的,本發(fā)明第三方面實(shí)施例提出了一種電子設(shè)備,包括:至少一個(gè)處理器;以及與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行第一方面所述的方法。

21、為了實(shí)現(xiàn)上述目的,本發(fā)明第四方面實(shí)施例提出了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行第一方面所述的方法。

22、本發(fā)明實(shí)施例提供的面向煤炭行業(yè)科技文獻(xiàn)的知識(shí)分級(jí)提取方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),將pdf格式的煤炭行業(yè)科技文獻(xiàn)進(jìn)行純文本md格式轉(zhuǎn)換后進(jìn)行行首的非文本標(biāo)識(shí)符刪除,以得到目標(biāo)煤炭行業(yè)文檔;定義各級(jí)別標(biāo)題的語言標(biāo)識(shí)符以及級(jí)別標(biāo)識(shí)符組建的標(biāo)識(shí)符規(guī)則庫;訓(xùn)練出標(biāo)題分級(jí)模型;標(biāo)題分級(jí)模型識(shí)別出目標(biāo)煤炭行業(yè)文檔中的多個(gè)目標(biāo)級(jí)別標(biāo)題及各自對(duì)應(yīng)的正文;多個(gè)目標(biāo)級(jí)別標(biāo)題通過標(biāo)識(shí)符規(guī)則庫進(jìn)行標(biāo)識(shí)符添加并結(jié)合正文,生成md文本文件;正則化匹配標(biāo)識(shí)符在md文本文件進(jìn)行定向知識(shí)分級(jí)提取,得到提取文本。由此,通過pdf文檔處理、標(biāo)題分級(jí)模型、面向標(biāo)題的標(biāo)識(shí)符規(guī)則庫,提高面向煤炭行業(yè)科技文獻(xiàn)的知識(shí)分級(jí)提取的準(zhǔn)確率和效率。

23、本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。



技術(shù)特征:

1.一種面向煤炭行業(yè)科技文獻(xiàn)的知識(shí)分級(jí)提取方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將pdf格式的煤炭行業(yè)科技文獻(xiàn)轉(zhuǎn)換為純文本md格式的煤炭行業(yè)文檔,并將煤炭行業(yè)文檔中每一行的行首含有的非文本標(biāo)識(shí)符刪除,以得到目標(biāo)煤炭行業(yè)文檔,包括:

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,其中,在各級(jí)別標(biāo)題包括四個(gè)級(jí)別標(biāo)題的情況下,一級(jí)標(biāo)題的級(jí)別標(biāo)識(shí)符為一個(gè)預(yù)設(shè)標(biāo)識(shí)符,二級(jí)標(biāo)題的級(jí)別標(biāo)識(shí)符為兩個(gè)預(yù)設(shè)標(biāo)識(shí)符、三級(jí)標(biāo)題的級(jí)別標(biāo)識(shí)符為三個(gè)預(yù)設(shè)標(biāo)識(shí)符、四級(jí)標(biāo)題的級(jí)別標(biāo)識(shí)符為四個(gè)預(yù)設(shè)標(biāo)識(shí)符。

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用大模型分別合成多個(gè)不同級(jí)別訓(xùn)練標(biāo)題及各級(jí)別訓(xùn)練標(biāo)題的訓(xùn)練正文,以組建標(biāo)題分類數(shù)據(jù)集,再結(jié)合預(yù)訓(xùn)練語言模型,提取訓(xùn)練標(biāo)題及訓(xùn)練正文的語義特征,訓(xùn)練決策樹分類算法,以得到標(biāo)題分級(jí)模型,包括:

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在組建成標(biāo)準(zhǔn)的md文本文件之后,還包括:

6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)用戶的問題請求信息,生成對(duì)應(yīng)的正則化匹配標(biāo)識(shí)符,以在所述md文本文件匹配到目標(biāo)級(jí)別標(biāo)題,并進(jìn)行目標(biāo)級(jí)別標(biāo)題下正文的定向知識(shí)分級(jí)提取,以得到問題請求信息的提取文本,包括:

7.一種面向煤炭行業(yè)科技文獻(xiàn)的知識(shí)分級(jí)提取裝置,其特征在于,所述裝置包括:

8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述轉(zhuǎn)換模塊,具體用于:

9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,其中,在各級(jí)別標(biāo)題包括四個(gè)級(jí)別標(biāo)題的情況下,一級(jí)標(biāo)題的級(jí)別標(biāo)識(shí)符為一個(gè)預(yù)設(shè)標(biāo)識(shí)符,二級(jí)標(biāo)題的級(jí)別標(biāo)識(shí)符為兩個(gè)預(yù)設(shè)標(biāo)識(shí)符、三級(jí)標(biāo)題的級(jí)別標(biāo)識(shí)符為三個(gè)預(yù)設(shè)標(biāo)識(shí)符、四級(jí)標(biāo)題的級(jí)別標(biāo)識(shí)符為四個(gè)預(yù)設(shè)標(biāo)識(shí)符。

10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述訓(xùn)練模塊,具體用于:

11.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置,還包括:

12.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述提取模塊,具體用于:

13.一種電子設(shè)備,其特征在于,包括:

14.一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1-6中任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本發(fā)明提出一種面向煤炭行業(yè)科技文獻(xiàn)的知識(shí)分級(jí)提取方法,涉及自然語言處理技術(shù)領(lǐng)域,將PDF格式的煤炭行業(yè)科技文獻(xiàn)進(jìn)行純文本MD格式轉(zhuǎn)換后進(jìn)行行首的非文本標(biāo)識(shí)符刪除,得到目標(biāo)煤炭行業(yè)文檔;定義各級(jí)別標(biāo)題的語言標(biāo)識(shí)符以及級(jí)別標(biāo)識(shí)符組建的標(biāo)識(shí)符規(guī)則庫;訓(xùn)練出標(biāo)題分級(jí)模型;標(biāo)題分級(jí)模型識(shí)別出目標(biāo)煤炭行業(yè)文檔中的多個(gè)目標(biāo)級(jí)別標(biāo)題及各自對(duì)應(yīng)的正文;多個(gè)目標(biāo)級(jí)別標(biāo)題通過標(biāo)識(shí)符規(guī)則庫進(jìn)行標(biāo)識(shí)符添加并結(jié)合正文,生成MD文本文件;正則化匹配標(biāo)識(shí)符在MD文本文件進(jìn)行定向知識(shí)分級(jí)提取,得到提取文本。由此,通過PDF文檔處理、標(biāo)題分級(jí)模型、面向標(biāo)題的標(biāo)識(shí)符規(guī)則庫,提高面向煤炭行業(yè)科技文獻(xiàn)的知識(shí)分級(jí)提取的準(zhǔn)確率和效率。

技術(shù)研發(fā)人員:孫闖,賈琨,楊培培,程健,駱意,宋鄭一凡,周子博,王冠杰
受保護(hù)的技術(shù)使用者:煤炭科學(xué)研究總院有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/6/26
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1