本公開總體上涉及視頻編碼和解碼領(lǐng)域,并且具體涉及對用于機器的視頻和其他數(shù)據(jù)進行編碼和解碼。
背景技術(shù):
1、機器人、監(jiān)視、監(jiān)測、物聯(lián)網(wǎng)等的最新趨勢已經(jīng)引入了用例,其中在現(xiàn)場記錄的所有圖像和視頻的大部分僅由機器使用,而沒有到達人眼。這些機器以完成諸如對象檢測、對象跟蹤、分割、事件檢測等特定任務為目標來處理圖像和視頻。認識到這種趨勢是普遍的并且在未來將只會加速,國際標準化機構(gòu)已經(jīng)開始努力來對主要針對機器消費進行優(yōu)化的圖像和視頻編碼進行標準化。例如,除了諸如用于視覺搜索的緊湊描述符和用于視頻分析的緊湊描述符之類的已經(jīng)建立的標準之外,像用于機器的jpeg?ai和視頻編碼之類的標準也在持續(xù)的努力中。與經(jīng)典圖像和視頻編碼技術(shù)相比提高效率的解決方案,是需要的并且在本文中呈現(xiàn)。
技術(shù)實現(xiàn)思路
1、在一個實施例中,提供了一種用于編碼數(shù)據(jù)以供機器消費的視頻編碼器。視頻編碼器包括接收源視頻和檢測器選擇參數(shù)并選擇對象檢測器模型的區(qū)域檢測器選擇模塊。區(qū)域檢測模塊將所選擇的模型應用于源視頻以識別源視頻中的感興趣區(qū)域。區(qū)域提取器模塊從源視頻提取所識別的區(qū)域的像素。區(qū)域封裝模塊接收從源視頻中提取的區(qū)域,并將這些區(qū)域封裝成封裝幀,在所述封裝幀中省略了感興趣區(qū)域之外的像素。區(qū)域參數(shù)模塊從區(qū)域提取器接收所識別的區(qū)域,并提供用于將感興趣區(qū)域放置在重構(gòu)視頻幀中的參數(shù)。視頻編碼器從區(qū)域封裝模塊接收封裝幀并且從區(qū)域參數(shù)模塊接收區(qū)域參數(shù),并生成編碼比特流。
2、在一些實施例中,區(qū)域檢測器選擇模塊基于來自機器任務系統(tǒng)的檢測器選擇參數(shù)來選擇多個模型中的一個模型??梢曰跈C器任務系統(tǒng)對于編碼比特流的性能,來更新來自機器任務系統(tǒng)的檢測選擇參數(shù)。
3、在某些實施例中,檢測器模塊可以包括retinanet模型和yolov7模型中的至少一個。
4、區(qū)域檢測模塊可以至少部分地通過矩形邊界框來定義每個檢測到的區(qū)域。在一些實施方案中,編碼器可包括區(qū)域填充模塊,該區(qū)域填充模塊將填充參數(shù)添加到檢測到的區(qū)域的邊界框的一個或多個維度。每個檢測到的區(qū)域可以具有相關(guān)聯(lián)的區(qū)域類型,并且可以至少部分地基于對象類型來確定填充參數(shù)。替代地或另外地,可以至少部分地基于區(qū)域大小和/或邊界框大小來確定填充參數(shù)。
5、在另一實施例中,編碼器可以包括合并分割區(qū)域提取器模塊,該合并分割區(qū)域提取器模塊進一步處理檢測到的區(qū)域并執(zhí)行選擇性地合并具有基本重疊的區(qū)域和選擇性地分割區(qū)域中的至少一個處理以優(yōu)化封裝性能。合并分割區(qū)域提取器模塊可以從機器任務系統(tǒng)接收自適應提取參數(shù),并且基于所述參數(shù)動態(tài)地調(diào)整合并和分割參數(shù)。
6、在某些實施例中,編碼器可以包括區(qū)域填充模塊和合并分割區(qū)域提取器模塊兩者。
7、提供了一種對視頻數(shù)據(jù)進行編碼以供機器處理消費的方法,該方法包括以下步驟:接收源視頻;識別源視頻中的至少一個感興趣區(qū)域,每個感興趣區(qū)域由相關(guān)聯(lián)的邊界框定義;從源視頻中提取相關(guān)聯(lián)的邊界框內(nèi)的感興趣區(qū)域的所識別的內(nèi)容;將所提取的區(qū)域封裝成封裝的視頻幀,在封裝的視頻幀中省略了感興趣區(qū)域之外的像素;提供針對足以在重構(gòu)視頻幀中重構(gòu)感興趣區(qū)域的邊界框的區(qū)域參數(shù);以及生成包括封裝的幀和相關(guān)聯(lián)的區(qū)域參數(shù)的編碼比特流。
8、在一些情況下,所述方法可進一步包含對于至少一個感興趣區(qū)域,將區(qū)域填補應用于相關(guān)聯(lián)邊界框的至少一個維度。該方法還可以包括合并分割處理,其包括選擇性地合并具有基本重疊的感興趣區(qū)域和選擇性地分割區(qū)域中的至少一個處理以優(yōu)化封裝性能。感興趣區(qū)域可以具有相關(guān)聯(lián)的對象類型,并且區(qū)域填充可以至少部分地基于對象類型來確定。在一些實施例中,感興趣區(qū)域具有相關(guān)聯(lián)的邊界框大小,并且至少基于邊界框大小來確定區(qū)域填充。
9、在一些實施例中,該方法可以包括從位于接收編碼比特流的解碼器站點處的機器系統(tǒng)接收性能數(shù)據(jù),并且區(qū)域填充至少部分地基于接收到的性能數(shù)據(jù)來確定。
10、本公開還包括視頻解碼器,該視頻解碼器包括被配置為接收和解碼通過上述編碼器和編碼方法生成的編碼比特流的電路。本公開還公開了在其上存儲編碼比特流的計算機可讀介質(zhì)的實施例,編碼比特流通過本文描述的任何編碼器和編碼方法生成。
11、在結(jié)合附圖閱讀以下對具體非限制性實施例的描述后,本發(fā)明的非限制性實施例的這些和其他方面和特征對于本領(lǐng)域技術(shù)人員將變得顯而易見。
1.一種用于編碼數(shù)據(jù)以供機器消費的視頻編碼器,包括:
2.根據(jù)權(quán)利要求1所述的編碼器,其中,所述區(qū)域檢測器選擇模塊基于來自機器任務系統(tǒng)的檢測器選擇參數(shù),來選擇多個模型中的一個模型。
3.根據(jù)權(quán)利要求2所述的編碼器,其中,基于所述機器任務系統(tǒng)對于所述編碼比特流的性能,來更新來自所述機器任務系統(tǒng)的檢測選擇參數(shù)。
4.根據(jù)權(quán)利要求2所述的編碼器,其中,所述多個模型包括retinanet模型和yolov7模型中的至少一個。
5.根據(jù)權(quán)利要求1所述的編碼器,其中,所述區(qū)域檢測模塊至少部分地通過矩形邊界框來定義每個檢測到的區(qū)域,并且所述編碼器還包括區(qū)域填充模塊,所述區(qū)域填充模塊將填充參數(shù)添加到檢測到的區(qū)域的邊界框的一個或多個維度。
6.根據(jù)權(quán)利要求5所述的編碼器,其中,每個檢測到的區(qū)域具有相關(guān)聯(lián)的區(qū)域類型,并且至少部分地基于對象類型來確定所述填充參數(shù)。
7.根據(jù)權(quán)利要求5所述的編碼器,其中,所述填充參數(shù)是至少部分地基于區(qū)域大小來確定的。
8.根據(jù)權(quán)利要求1所述的編碼器,還包括合并分割區(qū)域提取器模塊,所述合并分割區(qū)域提取器模塊處理檢測到的區(qū)域以用于進一步處理,并且執(zhí)行選擇性地合并具有實質(zhì)重疊的區(qū)域和選擇性地分割區(qū)域中的至少一個處理以優(yōu)化封裝性能。
9.根據(jù)權(quán)利要求8所述的編碼器,其中,所述合并分割區(qū)域提取器模塊從機器任務系統(tǒng)接收自適應提取參數(shù),并基于所述參數(shù)動態(tài)地調(diào)整合并和分割參數(shù)。
10.根據(jù)權(quán)利要求1所述的編碼器,其中,每個檢測區(qū)域由矩形邊界框定義,所述編碼器還包括:
11.一種編碼視頻數(shù)據(jù)以供機器處理消費的方法,所述方法包括:
12.根據(jù)權(quán)利要求11所述的編碼方法,還包括:
13.根據(jù)權(quán)利要求12所述的編碼方法,其中,感興趣區(qū)域具有相關(guān)聯(lián)的對象類型,并且所述區(qū)域填充至少部分地基于所述對象類型來確定。
14.根據(jù)權(quán)利要求12所述的編碼方法,其中,感興趣區(qū)域具有相關(guān)聯(lián)的邊界框大小,并且所述區(qū)域填充至少基于所述邊界框大小來確定。
15.根據(jù)權(quán)利要求12所述的編碼方法,還包括:從位于接收所述編碼比特流的解碼器站點的機器系統(tǒng)接收性能數(shù)據(jù),并且其中,所述區(qū)域填充至少部分地基于所接收的性能數(shù)據(jù)來確定。
16.一種視頻解碼器,包括被配置為接收和解碼通過權(quán)利要求1-15中任一項生成的編碼比特流的電路。
17.一種機器可讀介質(zhì),其上存儲有編碼比特流,所述編碼比特流通過權(quán)利要求1-15中的任一項生成。