一種長(zhǎng)文本語音播報(bào)方法、設(shè)備及介質(zhì)與流程

文檔序號(hào)：42300140發(fā)布日期：2025-06-27 18:41閱讀：18來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本申請(qǐng)涉及計(jì)算機(jī)，具體涉及一種長(zhǎng)文本語音播報(bào)方法、設(shè)備及介質(zhì)。

背景技術(shù)：

1、在線語音合成（text?to?speech,?tts）是一種將文字轉(zhuǎn)換為自然語音的技術(shù)，廣泛應(yīng)用于有聲書、語音助手、導(dǎo)航系統(tǒng)、無障礙服務(wù)等領(lǐng)域。終端在使用文字轉(zhuǎn)語音接口時(shí)，一般會(huì)使用短文本在線合成語音接口、長(zhǎng)文本在線合成語音接口或流式文本在線合成接口，短文本在線合成語音接口返回速度快，長(zhǎng)文本在線合成語音接口能夠一次處理大量文字，流式文本在線合成接口適用于實(shí)時(shí)場(chǎng)景。

2、然而，在處理長(zhǎng)文本文件時(shí)，如果通過長(zhǎng)文本在線合成語音接口對(duì)來處理并不能馬上返回并播報(bào)，其分鐘級(jí)延遲難以滿足導(dǎo)航、新聞等實(shí)時(shí)場(chǎng)景需求。因此，亟需一種能夠智能解析文本結(jié)構(gòu)、優(yōu)化合成流程的長(zhǎng)文本語音播報(bào)方法。

技術(shù)實(shí)現(xiàn)思路

1、為了解決上述問題，本申請(qǐng)?zhí)岢隽艘环N長(zhǎng)文本語音播報(bào)方法，包括：

2、獲取長(zhǎng)文本文件，基于預(yù)設(shè)的分割規(guī)則，根據(jù)所述長(zhǎng)文本文件中包含的字符串信息，將所述長(zhǎng)文本文件分割為若干文本段；

3、針對(duì)所述文本段生成對(duì)應(yīng)的文本語音段，確定所述文本語音段對(duì)應(yīng)的段落標(biāo)識(shí)以及語音文件地址；

4、調(diào)用預(yù)設(shè)的短文本合成語音接口，按照所述文本語音段的先后順序，依次從所述語音文件地址中獲取到相應(yīng)的文本語音段，并將所述文本語音段合成為所述長(zhǎng)文本語音文件進(jìn)行語音播報(bào)。

5、在本申請(qǐng)的一種實(shí)現(xiàn)方式中，按照所述文本語音段的先后順序，依次從所述語音文件地址中獲取到相應(yīng)的文本語音段，具體包括：

6、根據(jù)所述文本語音段對(duì)應(yīng)的段落標(biāo)識(shí)，確定所述文本語音段的先后順序；

7、確定所述文本語音段中的首個(gè)文本語音段，生成針對(duì)所述首個(gè)文本語音段的首個(gè)播報(bào)請(qǐng)求；

8、響應(yīng)于所述首個(gè)播報(bào)請(qǐng)求，根據(jù)所述首個(gè)文本語音段對(duì)應(yīng)的第一語音文件地址，獲取到所述首個(gè)文本語音段，并對(duì)所述首個(gè)文本語音段進(jìn)行語音播報(bào)；

9、在對(duì)所述首個(gè)文本語音段進(jìn)行語音播報(bào)的同時(shí)，按照所述先后順序，對(duì)位于所述首個(gè)文本語音段之后的其他文本語音段進(jìn)行預(yù)加載，以在完成對(duì)所述首個(gè)文本語音段的語音播報(bào)后，自動(dòng)播報(bào)所述其他文本語音段，實(shí)現(xiàn)對(duì)所述文本語音段的合成語音播報(bào)。

10、在本申請(qǐng)的一種實(shí)現(xiàn)方式中，按照所述先后順序，對(duì)位于所述首個(gè)文本語音段之后的其他文本語音段進(jìn)行預(yù)加載，以在完成對(duì)所述首個(gè)文本語音段的語音播報(bào)后，自動(dòng)播報(bào)所述其他文本語音段，具體包括：

11、按照所述先后順序，生成位于所述首個(gè)文本語音段之后的下一文本語音段的下一播報(bào)請(qǐng)求；

12、響應(yīng)于所述下一播報(bào)請(qǐng)求，根據(jù)所述下一文本語音段對(duì)應(yīng)的第二語音文件地址，獲取到所述下一文本語音段，并對(duì)所述下一文本語音段進(jìn)行播報(bào)；

13、在對(duì)所述下一文本語音段進(jìn)行語音播報(bào)的同時(shí)，重復(fù)上述過程，直至完成對(duì)所述其他文本語音段的預(yù)加載和播報(bào)。

14、在本申請(qǐng)的一種實(shí)現(xiàn)方式中，生成位于所述首個(gè)文本語音段之后的下一文本語音段的下一播報(bào)請(qǐng)求，具體包括：

15、確定用于播報(bào)所述長(zhǎng)文本語音文件的播報(bào)設(shè)備；

16、根據(jù)所述播報(bào)設(shè)備的設(shè)備性能和網(wǎng)絡(luò)負(fù)載信息，確定所述下一播報(bào)請(qǐng)求對(duì)應(yīng)的合成策略；

17、根據(jù)所述合成策略，確定所述下一播報(bào)請(qǐng)求為單個(gè)播報(bào)請(qǐng)求或組合播報(bào)請(qǐng)求。

18、在本申請(qǐng)的一種實(shí)現(xiàn)方式中，基于預(yù)設(shè)的分割規(guī)則，根據(jù)所述長(zhǎng)文本文件中包含的字符串信息，將所述長(zhǎng)文本文件分割為若干文本段，具體包括：

19、基于預(yù)設(shè)的分割規(guī)則，確定每個(gè)文本段所需包含的字符串長(zhǎng)度；

20、根據(jù)所述字符串長(zhǎng)度，將所述長(zhǎng)文本文件分割為若干文本段；其中，所述文本段中的首個(gè)文本段的字符串長(zhǎng)度最小。

21、在本申請(qǐng)的一種實(shí)現(xiàn)方式中，根據(jù)所述字符串長(zhǎng)度，將所述長(zhǎng)文本文件分割為若干文本段，具體包括：

22、根據(jù)所述字符串長(zhǎng)度，將所述長(zhǎng)文本文件分割為若干文本段，

23、針對(duì)除所述首個(gè)文本段之外的其他文本段，對(duì)所述其他文本段包含的其他字符串信息進(jìn)行語義分析，以提取所述其他字符串信息中的核心文本；

24、若所述核心文本對(duì)應(yīng)多個(gè)文本段，將所述多個(gè)文本段合并為同一文本段。

25、在本申請(qǐng)的一種實(shí)現(xiàn)方式中，將所述多個(gè)文本段合并為同一文本段，具體包括：

26、在合并后的文本段超出預(yù)設(shè)的字符串長(zhǎng)度閾值或后續(xù)文本段對(duì)應(yīng)的字符串長(zhǎng)度的情況下，對(duì)所述核心文本對(duì)應(yīng)的文本語音段進(jìn)行組合播報(bào)。

27、在本申請(qǐng)的一種實(shí)現(xiàn)方式中，所述方法還包括：

28、確定所述長(zhǎng)文本文件對(duì)應(yīng)的使用場(chǎng)景；

29、在所述使用場(chǎng)景為指定使用場(chǎng)景的情況下，根據(jù)所述核心文本，生成所述長(zhǎng)文本文件對(duì)應(yīng)的文本摘要，以在對(duì)所述長(zhǎng)文本文件進(jìn)行播報(bào)時(shí)，播報(bào)所述文本摘要。

30、本申請(qǐng)實(shí)施例提供了一種長(zhǎng)文本語音播報(bào)設(shè)備，所述設(shè)備包括：

31、至少一個(gè)處理器；

32、以及，與所述至少一個(gè)處理器通信連接的存儲(chǔ)器；

33、其中，所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令，所述指令被所述至少一個(gè)處理器執(zhí)行，以使所述至少一個(gè)處理器能夠執(zhí)行如上任一項(xiàng)所述的一種長(zhǎng)文本語音播報(bào)方法。

34、本申請(qǐng)實(shí)施例提供了一種非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)，存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令，所述計(jì)算機(jī)可執(zhí)行指令設(shè)置為：

35、如上任一項(xiàng)所述的一種長(zhǎng)文本語音播報(bào)方法。

36、通過本申請(qǐng)?zhí)岢龅囊环N長(zhǎng)文本語音播報(bào)方法能夠帶來如下有益效果：

37、針對(duì)每個(gè)文本段生成對(duì)應(yīng)的文本語音段，并確定其段落標(biāo)識(shí)和語音文件地址，然后利用預(yù)設(shè)的短文本合成語音接口，按照文本語音段的先后順序依次從語音文件地址中獲取并合成長(zhǎng)文本語音文件進(jìn)行播報(bào)，有效解決了長(zhǎng)文本在線合成語音接口存在的分鐘級(jí)延遲問題，能夠滿足實(shí)時(shí)場(chǎng)景對(duì)語音播報(bào)的高時(shí)效性需求，提升了用戶體驗(yàn)。

技術(shù)特征：

1.一種長(zhǎng)文本語音播報(bào)方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的一種長(zhǎng)文本語音播報(bào)方法，其特征在于，按照所述文本語音段的先后順序，依次從所述語音文件地址中獲取到相應(yīng)的文本語音段，具體包括：

3.根據(jù)權(quán)利要求2所述的一種長(zhǎng)文本語音播報(bào)方法，其特征在于，按照所述先后順序，對(duì)位于所述首個(gè)文本語音段之后的其他文本語音段進(jìn)行預(yù)加載，以在完成對(duì)所述首個(gè)文本語音段的語音播報(bào)后，自動(dòng)播報(bào)所述其他文本語音段，具體包括：

4.根據(jù)權(quán)利要求3所述的一種長(zhǎng)文本語音播報(bào)方法，其特征在于，生成位于所述首個(gè)文本語音段之后的下一文本語音段的下一播報(bào)請(qǐng)求，具體包括：

5.根據(jù)權(quán)利要求1所述的一種長(zhǎng)文本語音播報(bào)方法，其特征在于，基于預(yù)設(shè)的分割規(guī)則，根據(jù)所述長(zhǎng)文本文件中包含的字符串信息，將所述長(zhǎng)文本文件分割為若干文本段，具體包括：

6.根據(jù)權(quán)利要求5所述的一種長(zhǎng)文本語音播報(bào)方法，其特征在于，根據(jù)所述字符串長(zhǎng)度，將所述長(zhǎng)文本文件分割為若干文本段，具體包括：

7.根據(jù)權(quán)利要求6所述的一種長(zhǎng)文本語音播報(bào)方法，其特征在于，將所述多個(gè)文本段合并為同一文本段，具體包括：

8.根據(jù)權(quán)利要求7所述的一種長(zhǎng)文本語音播報(bào)方法，其特征在于，所述方法還包括：

9.一種長(zhǎng)文本語音播報(bào)設(shè)備，其特征在于，所述設(shè)備包括：

10.一種非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)，存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令，其特征在于，所述計(jì)算機(jī)可執(zhí)行指令設(shè)置為：

技術(shù)總結(jié)
本申請(qǐng)公開了一種長(zhǎng)文本語音播報(bào)方法、設(shè)備及介質(zhì)，方法包括：獲取長(zhǎng)文本文件，基于預(yù)設(shè)的分割規(guī)則，根據(jù)長(zhǎng)文本文件中包含的字符串信息，將長(zhǎng)文本文件分割為若干文本段；針對(duì)文本段生成對(duì)應(yīng)的文本語音段，確定文本語音段對(duì)應(yīng)的段落標(biāo)識(shí)以及語音文件地址；調(diào)用預(yù)設(shè)的短文本合成語音接口，按照文本語音段的先后順序，依次從語音文件地址中獲取到相應(yīng)的文本語音段，并將文本語音段合成為長(zhǎng)文本語音文件進(jìn)行語音播報(bào)。

技術(shù)研發(fā)人員：盧祥鈞,張志江,侯志強(qiáng)
受保護(hù)的技術(shù)使用者：浪潮智能終端有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/6/26

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：盧祥鈞,張志江,侯志強(qiáng)
技術(shù)所有人：浪潮智能終端有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文字轉(zhuǎn)語音播音系統(tǒng)相關(guān)技術(shù)

語音播報(bào)裝置相關(guān)技術(shù)

女同另类啪啪视频,男人天堂av在线亚洲,免费入口网站黄色,毛片大全在线观看,黄色视频在线观看免费h片,直接看的欧美特一级黄碟,四虎精品久久久

一種長(zhǎng)文本語音播報(bào)方法、設(shè)備及介質(zhì)與流程

一種長(zhǎng)文本語音播報(bào)方法、設(shè)備及介質(zhì)與流程