女同另类啪啪视频,男人天堂av在线亚洲,免费入口网站黄色,毛片大全在线观看,黄色视频在线观看免费h片,直接看的欧美特一级黄碟,四虎精品久久久

一種第一視角視頻定位方法及系統(tǒng)

文檔序號:41984927發(fā)布日期:2025-05-23 16:41閱讀:41來源:國知局

本發(fā)明屬于視頻定位,具體涉及一種第一視角視頻定位方法及系統(tǒng)。


背景技術(shù):

1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。

2、第一視角視頻定位(egocentric?video?grounding)任務(wù)是根據(jù)給定的自然語言查詢文本,以及一段未經(jīng)剪輯的第一視角視頻,定位與該查詢對應(yīng)的特定視頻片段。定位視頻片段既要充分理解自然語言查詢文本的含義,同時還要完整地理解第一視角視頻中的人物行為等視覺線索,從而精準(zhǔn)地檢索到對應(yīng)的視頻片段。該技術(shù)能夠?qū)€人日常生活的視頻轉(zhuǎn)化為“外部記憶”,幫助用戶快速定位所需片段,解決遺忘物品位置等常見問題,因此它在各類第一視角場景下都具有廣泛的應(yīng)用價值,例如作為智能助手實時檢索用戶的第一視角視頻,或作為記憶模塊幫助家庭機器人回溯用戶活動。

3、因此,第一視角視頻定位任務(wù)引發(fā)了學(xué)界和工業(yè)界廣泛的關(guān)注,許多研究員在原有的深度學(xué)習(xí)方法進行了一系列的改進,并取得了許多進展?,F(xiàn)有方法主要朝兩個方向發(fā)展:1)視頻文本預(yù)訓(xùn)練。由于第一視角視頻和第三視角視頻之間的特征分布存在差異,一些研究使用第一視角視頻對視頻基座編碼器進行了微調(diào),從而提高了模型在第一視角的視頻理解任務(wù)中的魯棒性。2)數(shù)據(jù)增強。敘述充當(dāng)查詢策略(narration?as?query)利用已有敘述數(shù)據(jù)構(gòu)建了一個大型視頻敘述對數(shù)據(jù)集,將下游模型先在該視頻敘述對數(shù)據(jù)集上進行預(yù)訓(xùn)練,然后再在第一視角視頻定位數(shù)據(jù)集上進行微調(diào),取得了顯著的改進。

4、然而,先前的方法通常將第一視角視頻定位任務(wù)視為一般的長視頻定位問題,但這也導(dǎo)致現(xiàn)有方法難以應(yīng)對第一視角視頻提出的以下新挑戰(zhàn):

5、1)視頻主體信息有限。第一視角視頻通常由可穿戴設(shè)備拍攝,視頻中僅包含少部分肢體(如手、足)或局部場景,缺乏完整的視覺信息。這種局限性使得模型難以從視頻中提取足夠的語義信息來支持自然語言查詢。例如,當(dāng)用戶查詢“鑰匙放在哪里”時,先前方法可能無法準(zhǔn)確識別視頻中鑰匙的位置,因為鑰匙可能只出現(xiàn)在畫面的邊緣或背景中。此外,第一視角視頻中主體行為的表達(dá)也較為隱晦,例如手部動作可能僅占畫面的一小部分,進一步增加了模型理解視頻內(nèi)容的難度。因此,如何在第一視角場景下捕捉足夠的信息以支持細(xì)粒度查詢,成為當(dāng)前視頻定位方法亟待解決的關(guān)鍵問題。

6、2)視頻質(zhì)量低。由于第一視角視頻拍攝設(shè)備的移動和攝像者頭部動作,視頻常出現(xiàn)視角抖動、模糊和大范圍移動等問題,導(dǎo)致視頻質(zhì)量顯著下降。這種低質(zhì)量的視頻數(shù)據(jù)給模型學(xué)習(xí)帶來了額外的困難。例如,抖動和模糊可能導(dǎo)致關(guān)鍵物體或動作無法清晰呈現(xiàn),而大范圍移動可能使模型難以跟蹤視頻中的連續(xù)動作或場景變化。因此在面對第一視角視頻時,現(xiàn)有模型的表現(xiàn)往往不盡如人意。

7、3)視頻長度長。第一視角視頻通常記錄用戶較長時間的日常活動,視頻長度遠(yuǎn)長于傳統(tǒng)的第三視角視頻。這種長視頻特性使得定位任務(wù)更加復(fù)雜,因為模型需要在更長的時間范圍內(nèi)搜索與查詢相關(guān)的片段。

8、綜上所述,先前方法未能有效解決第一視角視頻定位任務(wù)中的視頻理解難、視頻質(zhì)量低、定位難度大等難點,因此需要更具針對性的解決方案。


技術(shù)實現(xiàn)思路

1、本發(fā)明為了解決上述問題,提出了一種第一視角視頻定位方法及系統(tǒng),本發(fā)明通過從視頻中挖掘細(xì)粒度物品語義信息并輸入到模型中從而增強視頻表示,以及通過切分鏡頭并進行鏡頭-文本對比學(xué)習(xí)提升模型對視頻的理解能力,克服了現(xiàn)有技術(shù)中缺乏細(xì)粒度語義信息和難以理解第一視角視頻的缺陷。

2、根據(jù)一些實施例,本發(fā)明采用如下技術(shù)方案:

3、一種第一視角視頻定位方法,包括以下步驟:

4、獲取第一視角視頻和查詢文本;

5、使用預(yù)訓(xùn)練的物品檢測器從第一視角視頻中提取物品注釋,并通過與查詢文本中的名詞匹配篩選出與查詢相關(guān)的物品類別;

6、利用預(yù)訓(xùn)練的特征編碼器編碼視頻、物品和文本信息,提取出視頻特征、物品特征與文本特征,進行文本特征上下文建模,并執(zhí)行文本與物品間的特征交互;

7、利用包含使用選擇性狀態(tài)空間的線性時間序列模型以及交叉注意力的多模態(tài)融合模塊進行視頻特征序列理解和特征融合,獲得多模態(tài)特征表示;

8、使用所述多模態(tài)特征表示,進行第一視角視頻片段定位。

9、作為可選擇的實施方式,使用預(yù)訓(xùn)練的物品檢測器從第一視角視頻中提取物品注釋,并通過與查詢文本中的名詞匹配篩選出與查詢相關(guān)的物品類別的過程包括:使用預(yù)訓(xùn)練的物品檢測器從第一視角視頻中逐幀提取物品注釋,生成包含物品類別、置信度及其出現(xiàn)時間戳的結(jié)構(gòu)化信息;

10、通過對查詢文本進行自然語言處理,提取其中的名詞短語作為關(guān)鍵查詢詞,利用語義相似度計算將提取的物品類別與查詢詞進行匹配;

11、篩選出置信度且與查詢語義相似度高于設(shè)定閾值的物品類別作為該幀的物品標(biāo)注。

12、作為可選擇的實施方式,利用預(yù)訓(xùn)練的特征編碼器編碼視頻、物品和文本信息,提取出視頻特征、物品特征與文本特征的過程包括:利用預(yù)訓(xùn)練的視頻基座模型用于提取片段級視頻特征,然后將其投影到特征空間中,得到視頻表示;

13、利用預(yù)訓(xùn)練的文本基座模型提取文本特征,然后用由transformer構(gòu)成的文本編碼器對文本特征進行上下文交互;

14、利用預(yù)訓(xùn)練的文本基座模型提取物品特征,并使用物品編碼器細(xì)化與查詢相關(guān)的物品特征。

15、作為進一步的,使用物品編碼器細(xì)化與查詢相關(guān)的物品特征的過程包括對檢測到的物品類別的文本進行編碼,使用由多層?transformer構(gòu)成的物品編碼器細(xì)化與查詢相關(guān)的物品特征,以物品特征作為查詢,查詢文本特征作為鍵和值,得到與查詢文本相關(guān)的物品特征。

16、作為可選擇的實施方式,利用包含使用選擇性狀態(tài)空間的線性時間序列模型以及交叉注意力的多模態(tài)融合模塊進行視頻特征序列理解和特征融合的過程包括:使用雙向選擇性狀態(tài)空間的線性時間序列模型增強視頻特征,以捕捉視頻數(shù)據(jù)中的長距離依賴關(guān)系;應(yīng)用交叉注意力機制和前饋層聚合增強后的視頻特征和查詢文本信息;使用并行交叉注意力機制聚合視頻特征和物品特征;

17、通過門控機制對兩種聚合不同信息的特征進行組合。

18、作為可選擇的實施方式,使用所述多模態(tài)特征表示,進行第一視角視頻片段定位的過程包括:使用多層?transformer構(gòu)成的多尺度網(wǎng)絡(luò)生成特征金字塔,每層transformer在自注意力和?ffn?模塊(前饋層,feed?forward?network,ffn)之前包含一個?1d?深度卷積,實現(xiàn)序列下采樣,獲得多尺度候選片段的表示;

19、通過任務(wù)頭將多尺度特征金字塔解碼為視頻定位的最終預(yù)測,分類頭預(yù)測每個候選片段的置信度得分,回歸頭預(yù)測候選片段邊界相對于錨點的偏移量。

20、作為可選擇的實施方式,還包括以下步驟:使用對比學(xué)習(xí)的鏡頭旁支增強第一視角視頻特征表示,具體包括:利用預(yù)訓(xùn)練敘述模型切分鏡頭;

21、提取切分后的每個鏡頭的視頻特征和查詢級別的文本特征;

22、聚合鏡頭和所述查詢級別的文本特征,將文本和視頻特征投影到聯(lián)合語義空間中,并用于對比學(xué)習(xí)。

23、一種第一視角視頻定位系統(tǒng),包括:

24、獲取模塊,被配置為獲取第一視角視頻和查詢文本;

25、預(yù)處理模塊,被配置為使用預(yù)訓(xùn)練的物品檢測器從第一視角視頻中提取物品注釋,并通過與查詢文本中的名詞匹配篩選出與查詢相關(guān)的物品類別;

26、特征提取模塊,被配置為利用預(yù)訓(xùn)練的特征編碼器編碼視頻、物品和文本信息,提取出視頻特征、物品特征與文本特征,進行文本特征上下文建模,并執(zhí)行文本與物品間的特征交互;

27、多模態(tài)融合模塊,被配置為利用包含使用選擇性狀態(tài)空間的線性時間序列模型以及交叉注意力的多模態(tài)融合模塊進行視頻特征序列理解和特征融合,獲得多模態(tài)特征表示;

28、定位模塊,被配置為使用所述多模態(tài)特征表示,進行第一視角視頻片段定位。

29、一種計算機可讀存儲介質(zhì),用于存儲計算機指令,所述計算機指令被處理器執(zhí)行時,完成上述方法中的步驟。

30、一種電子設(shè)備,包括存儲器和處理器以及存儲在存儲器上并在處理器上運行的計算機指令,所述計算機指令被處理器運行時,完成上述方法中的步驟。

31、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:

32、本發(fā)明公開了一種針對第一視角視頻特點的視頻定位方法及系統(tǒng),包括一種基于細(xì)粒度物品語義增強視頻表示的第一視角視頻定位方法和一種基于對比學(xué)習(xí)的鏡頭旁支的特征表示增強方法,考慮了多個關(guān)鍵因素,包括視頻理解難、視頻質(zhì)量低、定位難度大等。

33、本發(fā)明的基于細(xì)粒度物品語義增強視頻表示的第一視角視頻定位方法可以定位細(xì)粒度的查詢文本;為了確保模型能理解以及定位細(xì)粒度的查詢文本,通過將細(xì)粒度物品信息集成到視頻定位任務(wù)中,使模型能夠獲取到視頻幀中的物品類別等信息,顯著提高了背景物品相關(guān)查詢的定位準(zhǔn)確性。

34、本發(fā)明的基于對比學(xué)習(xí)的鏡頭旁支的特征表示增強方法可以增強模型對第一視角視頻的理解;為了確保模型能更好地理解第一視角頻繁的鏡頭移動,從文本特征和視頻特征提取出查詢級別的文本特征和鏡頭級別的視頻特征,并通過對比學(xué)習(xí)來增強文本表征和視頻表征間的對齊能力。

35、本發(fā)明在通過在多模態(tài)融合模塊中使用雙向選擇性狀態(tài)空間的線性時間序列模型(即mamba網(wǎng)絡(luò))進行視頻的自交互處理,可以更好地記憶歷史信息,從而在處理長序列視頻特征時能融合更多的上下文信息。

36、為使本發(fā)明的上述目的、特征和優(yōu)點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細(xì)說明如下。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1