本發(fā)明涉及一種目標(biāo)跟蹤方法,具體涉及一種利用時序變化信息預(yù)測優(yōu)化的目標(biāo)跟蹤方法,屬于遙感視頻目標(biāo)跟蹤。
背景技術(shù):
1、目標(biāo)跟蹤技術(shù)目前在遙感數(shù)據(jù)智能解譯領(lǐng)域展現(xiàn)出巨大應(yīng)用前景。目標(biāo)跟蹤技術(shù)是指從遙感視頻中逐幀檢測感興趣的目標(biāo),持續(xù)提取目標(biāo)位置及其身份信息,并對目標(biāo)形成長期穩(wěn)定的監(jiān)測。由于遙感視頻觀測范圍較廣、穩(wěn)定性較高,使用遙感數(shù)據(jù)進行目標(biāo)跟蹤能夠提供更為全面的統(tǒng)籌性決策信息,在軍事偵察、應(yīng)急救災(zāi)以及智慧城市等領(lǐng)域具有極高的應(yīng)用價值。
2、由于遙感視角下的目標(biāo)尺度較小,其特征難以捕獲和區(qū)分,且遙感視頻中還存在光照變化、云霧遮擋以及易與目標(biāo)混淆的背景環(huán)境等噪聲干擾,導(dǎo)致傳統(tǒng)跟蹤模型對目標(biāo)特征的提取能力有限,從而造成目標(biāo)漏檢和虛警。
3、因此,如何從噪聲干擾較大的遙感視頻中精準(zhǔn)跟蹤到感興趣的目標(biāo)已經(jīng)成為一項重要的研究課題。目前,為了增強模型對目標(biāo)的特征提取能力,降低噪聲干擾對目標(biāo)跟蹤的影響,絕大部分目標(biāo)跟蹤方法選擇直接利用幀間的時序信息對目標(biāo)特征進行補償,然而,該類方法所使用的時序信息中仍然包含著噪聲干擾,并未對其進行針對性抑制。因此,當(dāng)噪聲干擾較大時,該類模型對目標(biāo)的跟蹤能力依舊受限。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是針對現(xiàn)有技術(shù)的不足,為解決遙感視頻中由于噪聲干擾導(dǎo)致模型對目標(biāo)特征的提取能力受限的問題,創(chuàng)造性的提出一種利用時序變化信息預(yù)測優(yōu)化的目標(biāo)跟蹤方法。
2、本發(fā)明方法是通過下述技術(shù)方案實現(xiàn)的。
3、一種利用時序變化信息預(yù)測優(yōu)化的目標(biāo)跟蹤方法,包括以下步驟:
4、步驟1:構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)跟蹤基礎(chǔ)模型,以對遙感視頻幀圖像進行一般性處理,完成目標(biāo)跟蹤任務(wù)的基本需求;
5、步驟2:構(gòu)建時序變化信息提取模塊,以提取遙感視頻連續(xù)幀之間的時序變化信息,并對該信息進一步處理,從而分別獲取屬于目標(biāo)或噪聲干擾的時序變化信息,進而對目標(biāo)特征進行增強,對噪聲干擾進行抑制;
6、步驟3:構(gòu)建時序變化信息預(yù)測模塊,以步驟2中獲得的僅屬于目標(biāo)的連續(xù)時序變化信息為歷史信息,對未來幀的目標(biāo)變化進行預(yù)測,使用預(yù)測結(jié)果對當(dāng)前幀的目標(biāo)特征進行修正,進而對未來幀的目標(biāo)特征進行補償增強。
7、進一步的,所述步驟1中,構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)跟蹤基礎(chǔ)模型的方法,包括以下步驟:
8、步驟1.1:選取一個通用的卷積神經(jīng)網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),以獲取遙感視頻幀圖像的初始特征圖ft;
9、步驟1.2:在步驟1.1的骨干網(wǎng)絡(luò)之后,并行的構(gòu)建三個預(yù)測網(wǎng)絡(luò),分別包括目標(biāo)中心點預(yù)測網(wǎng)絡(luò)、目標(biāo)包圍框?qū)捀哳A(yù)測網(wǎng)絡(luò)和目標(biāo)包圍框回歸值預(yù)測網(wǎng)絡(luò),以獲取目標(biāo)觀測結(jié)果;
10、步驟1.3:在步驟1.2的預(yù)測網(wǎng)絡(luò)之后,構(gòu)建目標(biāo)軌跡匹配關(guān)聯(lián)機制,以完成遙感視頻幀間的目標(biāo)身份信息關(guān)聯(lián)。
11、進一步的,所述步驟1.2中,目標(biāo)中心點預(yù)測網(wǎng)絡(luò)采用兩層卷積層:第一層采用參數(shù)獨立的3×3卷積層,其步長為1,填充為1,輸出通道為128;第二層采用參數(shù)獨立的1×1卷積層,其步長為1,填充為0,輸出通道為目標(biāo)類別數(shù);第一層卷積之后采用relu激活函數(shù)增加非線性。
12、進一步的,所述步驟1.2中,目標(biāo)包圍框?qū)捀哳A(yù)測網(wǎng)絡(luò)采用兩層卷積層:第一層采用參數(shù)獨立的3×3卷積層,其步長為1,填充為1,輸出通道為128;第二層采用參數(shù)獨立的1×1卷積層,其步長為1,填充為0,輸出通道為2;第一層卷積之后采用relu激活函數(shù)增加非線性。
13、進一步的,所述步驟1.2中,目標(biāo)包圍框回歸值預(yù)測網(wǎng)絡(luò)采用兩層卷積層:第一層采用參數(shù)獨立的3×3卷積層,其步長為1,填充為1,輸出通道為128;第二層采用參數(shù)獨立的1×1卷積層,其步長為1,填充為0,輸出通道為2;第一層卷積之后采用relu激活函數(shù)增加非線性。
14、進一步的,所述步驟1.3中,所述的目標(biāo)軌跡匹配關(guān)聯(lián)機制的構(gòu)建方法為:
15、針對每個已建立的目標(biāo)軌跡,采用卡爾曼濾波器建立目標(biāo)運動模型,輸出下一幀中目標(biāo)位置的先驗估計值,將估計值與目標(biāo)實際觀測結(jié)果進行匹配,通過計算每一個目標(biāo)的卡爾曼濾波預(yù)測位置與當(dāng)前幀檢測到的目標(biāo)邊界框之間的iou來評估匹配程度,并設(shè)定一個iou閾值以篩選出潛在的有效匹配對;然后,使用匈牙利算法在這些候選匹配對中尋找全局最優(yōu)匹配,確保每一個目標(biāo)軌跡都能與最有可能對應(yīng)的觀測結(jié)果進行關(guān)聯(lián)。在此過程中,對于未能找到合適匹配的目標(biāo)軌跡將根據(jù)卡爾曼濾波器的預(yù)測更新其狀態(tài),而新出現(xiàn)的目標(biāo)則會被初始化為新的軌跡,以便在后續(xù)幀中繼續(xù)跟蹤和關(guān)聯(lián)。
16、進一步的,所述步驟2中,構(gòu)建時序變化信息提取模塊的方法,包括以下步驟:
17、步驟2.1:利用差分操作對4個連續(xù)遙感視頻幀圖像的初始特征圖進行處理,以獲取3個連續(xù)幀間的初始時序變化信息;
18、步驟2.2:采用多頭自注意力機制,對步驟2.1中獲得的初始時序變化信息進行學(xué)習(xí);
19、步驟2.3:利用差分操作和激活函數(shù),提取單幀圖像內(nèi)的噪聲干擾信息,并對初始特征圖進行提純,通過一層卷積層將初始特征圖和提純特征圖進行融合,以提高模型的容錯能力。
20、進一步的,所述步驟2.1中,利用差分操作對4個連續(xù)遙感視頻幀圖像的初始特征圖進行處理,以獲取3個連續(xù)幀間的初始時序變化信息,如下式所示:
21、ct=ft-ft-1
22、ct-1=ft-1-ft-2
23、ct-2=ft-2-ft-3
24、其中,初始特征圖由目標(biāo)跟蹤基礎(chǔ)模型中的骨干網(wǎng)絡(luò)獲得,ft表示當(dāng)前視頻幀圖像的初始特征圖,ft-n表示緊鄰當(dāng)前視頻幀圖像之前的第n幀圖像的初始特征圖;ct表示當(dāng)前視頻幀圖像與上一幀圖像的初始時序變化信息,ct-n表示緊鄰當(dāng)前視頻幀圖像之前的第n幀圖像與第n+1幀圖像的初始時序變化信息。
25、進一步的,所述步驟2.1中,通過多頭自注意力機制對初始時序變化信息進行分類,提取到僅屬于感興趣的目標(biāo)的時序變化信息,即提純后的時序變化信息,如下式所示:
26、z=multihead(q,k,v)=concat(head1,...,headh)wo
27、headi=attention(ctwiq,ctwik,ctwiv)
28、
29、c′t=resize(z)
30、其中,z表示多頭注意力機制的輸出,headi表示第i個注意力頭的輸出,h表示注意力頭的數(shù)量,concat()表示拼接操作,wo是輸出變換矩陣;q、k、v分別表示查詢向量、鍵向量、值向量,由初始時序變化信息通過線性層得到,wiq、wik、wiv分別表示第i個注意力頭的查詢、鍵、值變換矩陣,dk表示鍵的維度;resize()表示恢復(fù)原始輸入形狀,c′t表示經(jīng)過提純后的時序變化信息。
31、進一步的,所述步驟2.3中,利用差分操作和激活函數(shù),提取單幀圖像內(nèi)的噪聲干擾信息,并對初始特征圖進行提純,通過一層卷積層將初始特征圖和提純特征圖進行融合,以提高模型的容錯能力,如下式所示:
32、f′t=w[(ft-relu(ct-c′t)),ft]
33、其中,ct-c′t表示提取初始時序變化信息中屬于噪聲干擾的時序變化信息,利用relu()激活函數(shù)對屬于當(dāng)前視頻幀圖像的噪聲干擾的信息進行提取,然后將其從當(dāng)前視頻幀圖像的初始特征圖中減去,以獲取提純后的提純特征圖,最后利用一層卷積層將提純特征圖與初始特征圖進行融合,w()表示一層參數(shù)獨立的1×1卷積層,其步長為1,填充為0,輸出通道數(shù)為輸入通道數(shù)的一半,f′表示融合后的特征圖。
34、進一步的,所述步驟3中,構(gòu)建時序變化信息預(yù)測模塊的方法為:
35、采用多頭交叉注意力機制,以2個連續(xù)的提純后的時序變化信息c′t-2和c′t-1為歷史信息,對下一個屬于目標(biāo)的時序變化信息進行預(yù)測,將時序變化信息預(yù)測結(jié)果與上一幀通過時序變化信息提取模塊得到的融合后的特征圖f′t-1相加,以獲取當(dāng)前幀的預(yù)測特征圖,最后將其與當(dāng)前幀通過時序變化信息提取模塊獲得的融合后的特征圖f′t進一步融合,對目標(biāo)特征進行補償增強,得到最終三個預(yù)測網(wǎng)絡(luò)獲取目標(biāo)觀測結(jié)果所需的特征圖f″t,如下式所示:
36、f″t=w[[att(c′t-2,c′t-1)+f′t-1],f′t]
37、其中,c′t-2和c′t-1表示提純后的時序變化信息,f′t-1和f′t表示通過時序變化信息提取模塊獲得的融合后的特征圖;輸入連續(xù)的4幀遙感視頻幀圖像[it-3,it-2,it-1,it],其中it表示當(dāng)前視頻幀圖像,通過目標(biāo)跟蹤基礎(chǔ)模型中的骨干網(wǎng)絡(luò),可得到4個初始特征圖[ft-3,ft-2,ft-1,ft],將ft-3和ft-2輸入到時序變化信息提取模塊可得到c′t-2,將ft-2和ft-1輸入到時序變化信息提取模塊可得到c′t-1和f′t-1,將ft-1和ft輸入到時序變化信息提取模塊可得到f′t;att()表示多頭交叉注意力機制,其與多頭自注意力機制的區(qū)別在于查詢向量q由c′t-2通過線性層得到,而鍵向量k和值向量v由c′t-1通過另一個獨立的線性層得到;w()表示一層參數(shù)獨立的1×1卷積層,其步長為1,填充為0,輸出通道數(shù)為輸入通道數(shù)的一半,f″t表示融合后的特征圖,用于基礎(chǔ)模型中三個預(yù)測網(wǎng)絡(luò)獲取目標(biāo)觀測結(jié)果。
38、有益效果
39、本方法能夠有效解決由于遙感視頻中噪聲干擾大導(dǎo)致模型難以提取到充足的目標(biāo)特征進行識別跟蹤的問題,提高了目標(biāo)跟蹤的精準(zhǔn)度,降低了目標(biāo)虛警率和漏檢率:
40、1、該方法構(gòu)建了用于目標(biāo)跟蹤的基礎(chǔ)模型,適用于遙感視頻領(lǐng)域的目標(biāo)跟蹤任務(wù),便于在其基礎(chǔ)上后續(xù)添加針對性技術(shù)。
41、2、通過構(gòu)建時序變化信息提取模塊,結(jié)合目標(biāo)短時間內(nèi)運動具有規(guī)律性等先驗知識,采用多頭自注意力機制對時序變化信息中的目標(biāo)信息和噪聲干擾信息分別進行提取利用,對骨干網(wǎng)絡(luò)所得到的目標(biāo)初始特征圖進行提純,增強目標(biāo)特征,降低噪聲干擾的影響。
42、3、通過構(gòu)建時序變化信息預(yù)測模塊,利用時序變化信息提取模塊中獲取的提純后的連續(xù)的歷史時序變化信息對下一個時序變化信息進行預(yù)測,并將預(yù)測結(jié)果與時序變化信息提取模塊中提純后的特征圖進行融合,進一步增強了目標(biāo)特征,避免了由于噪聲干擾導(dǎo)致目標(biāo)丟失的問題。