文|千不樊
編輯|千不樊
【資料圖】
在沒有人類監(jiān)督的情況下發(fā)現(xiàn)物體,因為它們在空間和時間上移動和改變外觀是計算機視覺中最具挑戰(zhàn)性和尚未解決的問題之一;我們?nèi)绾尾拍茏詈玫乩梦矬w運動和外觀之間的相關(guān)性,在沒有人工監(jiān)督的情況下對物體發(fā)現(xiàn)過程進行數(shù)學(xué)建模。
從時空域中可用的大量數(shù)據(jù)中更有效地學(xué)習(xí),而人為干預(yù)最少,視覺分組的任務(wù)對人類來說是自然而然的,但對機器來說要求很高;在視頻無監(jiān)督分割的背景下,具有強大監(jiān)督學(xué)習(xí)能力的深度學(xué)習(xí)領(lǐng)域和迭代圖算法領(lǐng)域,具有證明的無監(jiān)督聚類優(yōu)勢。
我們引入了一種,可用于在無監(jiān)督設(shè)置中自動分割視頻序列的主要對象,雖然一般的基于 3D 卷積的方法將時間維度視為等同于空間維度,我們提出了一種不同的耦合運動和外觀的方式。
現(xiàn)實世界中的物體在它們的時空鄰域中形成簇,屬于同一物體的點在空間和時間上保持連接,具有相似的外觀和運動模式,也與場景的其余部分不同。
視頻對象分割在計算機視覺領(lǐng)域得到快速發(fā)展,大多數(shù)解決方案基本上都是受監(jiān)督的,因為它們依賴于帶有人工標記注釋的大量預(yù)訓(xùn)練模型;雖然人工標注成本極高,但真正的無監(jiān)督方法很少。
利用不同的啟發(fā)式方法和多尺度視頻對象分割的內(nèi)在屬性;嵌入經(jīng)過預(yù)訓(xùn)練以用于顯著性預(yù)測、跟蹤、估計幾何變換和視頻摘要,與上述工作不同,彌合了經(jīng)典迭代圖算法和深度學(xué)習(xí)之間的差距,利用兩者的優(yōu)勢實現(xiàn)自我監(jiān)督。
圖1 我們的迭代知識交換 ( IKE ) 系統(tǒng)的架構(gòu)圖模塊(左)和網(wǎng)絡(luò)模塊(右)在多個循環(huán)上交換信息,直到收斂。
圖 2
時空圖結(jié)構(gòu)的可視化表示,說明了創(chuàng)建定義圖形的遠程邊的過程;彩色曲線表示運動鏈,通過跟隨光流矢量,從一幀到另一幀按時間向前和向后形成,黑色虛線曲線對應(yīng)于圖邊,在通過至少一個運動鏈連接的節(jié)點之間定義。
圖 3
沿運動鏈收集節(jié)點特征:對于一個節(jié)點j, 構(gòu)成特征向量的特征Fj沿著兩個輸出運動鏈(一個向前,一個向后)收集,來自與沿鏈相遇的節(jié)點相關(guān)聯(lián)的像素的不同特征。
兩個關(guān)鍵要素使我們的方法與眾不同:
(1)我們提出了一個緊湊的數(shù)學(xué)模型,它將運動和外觀耦合起來,將視頻中的主要對象定義為我們的特征運動矩陣中的主要自然光譜簇。
圖 4
(2) 我們的時空簇在像素級別是密集的,因此能夠通過早期做出硬分組決策(例如,計算超像素)來使用視頻中的所有信息而不會丟失細節(jié)。
圖 5
一種雙重迭代知識交換模型,將時空譜聚類與深度對象分割相結(jié)合,能夠在沒有任何人工注釋的情況下進行學(xué)習(xí),圖形模塊利用了視頻序列中固有的時空一致性,但無法訪問深層特征。
網(wǎng)絡(luò)模塊作為圖形模塊的補充,將深層特征添加到聚類算法中,該網(wǎng)絡(luò)具有強大的表示能力,并嘗試預(yù)測僅具有單幀輸入的時空聚類過程的輸出。
圖 6
給定一個序列M視頻幀,圖形模塊發(fā)現(xiàn)主要對象作為時空圖中最強的自然簇,并提取一組米軟分割掩碼,每幀一個,對應(yīng)于該主要對象。
定義時空圖 G=(V,E), 有一個節(jié)點一個 a∈V關(guān)聯(lián)到視頻的每個像素|V|=n, 在哪里n = m h w,M- 幀數(shù)和( h , w )- 幀大?。籊是一個無向圖,具有由運動鏈定義的邊集(圖 2)。
在時空圖中,每個節(jié)點A具有關(guān)聯(lián)的節(jié)點級功能 FA∈R1 , 從與節(jié)點關(guān)聯(lián)的像素開始,沿著傳出運動鏈收集特征向量A并通過連接到的所有像素A通過運動鏈。
我們定義矩陣P是將任何向量投影到特征矩陣的列空間的投影矩陣F(P = F (FtF)? 1Ft). 對向量的約束X, 它表明它應(yīng)該是列的線性組合F, 可以通過要求滿足S=xTMx。
最優(yōu)解x?最大化xTMx在約束下x = P x和∥ x∥2個= 1, 也會最大化xTPMPx受約束 ∥x∥2。
證明草圖作為x?最大化x = P x在約束下x = P x和 ∥x∥2= 1, 它也最大化(Px)TMPx. As P=PT作為P =PT, 它遵循x?最大化XTP M P x在考慮的約束條件下。
優(yōu)化問題可以定義如下:
Feature-Motion 矩陣的主特征向量A最佳解決方程式中定義的問題,在這個公式中,我們將分割轉(zhuǎn)換為經(jīng)典譜聚類,也與圖匹配的譜方法相關(guān)。
基于的屬性A,具有非負元素,我們可以使用 Perron-Frobenius 定理推斷出最優(yōu)解x?具有正值,我們的算法是冪迭代法的有效實現(xiàn),將收斂到最優(yōu)解x?。
傳播步驟
傳播步驟相當于讓每個節(jié)點A根據(jù)更新其標簽x(t)a=∑bMa,bx(t?1)b
步驟也相當于每個節(jié)點A有自己的標簽被傳播到它所連接的所有節(jié)點。
經(jīng)過一個節(jié)點時b,我們將其標簽更新為xb←xb+Ma,bxa但也更新標簽A xa←xa+Ma,bxb,我們在前向和后向方向上將信息從一幀中的所有節(jié)點聯(lián)合傳播到所有相鄰幀。
在每次迭代中,我們估計最佳權(quán)重集w*給定節(jié)點級特征的最佳近似當前節(jié)點標簽F. 權(quán)重計算如下:
w?=(FTF)?1FTx(t)
x(t)←Fw?=Px(t)
嘗試將算法的步驟表述為單個更新,會得出描述冪迭代的遞歸關(guān)系:
x(t)=(PMx(t?1))/(∥PMx(t?1)∥2
這意味著所提出的算法保證收斂到 PM矩陣,它遵循x?最大化瑞商R(PM,x)=(xTPMx)/(xTx
最優(yōu)解的 L2-范數(shù)是∥x?∥2=1 和x?住在列空間F,意思是x?= Px?. 它立即得出最優(yōu)解x?也最大化了我們的目標xTPMPx。
網(wǎng)絡(luò)模塊(圖 4)是一個補充時空圖的深度分割模型,在每個周期,僅使用圖形模塊的輸出作為監(jiān)督信號從頭開始訓(xùn)練網(wǎng)絡(luò),并在接下來的聚類迭代中將它們傳遞給圖形。
網(wǎng)絡(luò)模塊在樣本對上進行訓(xùn)練(Ii,xi), Ii∈Rh×w×3是ith視頻序列的圖像,以及xi∈[0,1]h×w是監(jiān)控信號,對于幀i,由圖形模塊提供。
這種配置確保在高置信度區(qū)域增加懲罰,同時我們確保在不確定區(qū)域更寬松的行為,在實踐中,我們考慮 λ1=λ2=0.5,網(wǎng)絡(luò)模塊解決了以下優(yōu)化任務(wù):
分割過程應(yīng)該收斂到相同的解決方案x?不管它的初始化X( 0 ),即使初始解決方案是完全隨機的,算法也會收斂到視頻中的主要對象,根據(jù)人工標記的 ground truth 驗證了 Feature-Motion 矩陣具有一個主要的強簇,它確實對應(yīng)于序列中的主要對象。
為了驗證唯一解的收斂性,我們仔細研究了起點在實踐中的影響,我們驗證了給定相同的特征運動矩陣時會發(fā)生什么(這僅取決于所使用的光流模塊,而不取決于初始解決方案X( 0 )),我們改變初始起點。
表 1 無監(jiān)督圖模塊的性能(第一個周期)
運動鏈中連接的兩個節(jié)點(像素)在圖中也連接,而未通過運動鏈連接的節(jié)點在圖中也不連接,連接性以矩陣編碼米并立即轉(zhuǎn)移到特征運動矩陣A, 是時空圖的鄰接矩陣。
在表 1中,提出了一個不同的實驗,其中對于用于構(gòu)建圖運動結(jié)構(gòu)的給定光流(M),我們連接了用兩種光流方法(RAFT 和 FlowNet2.0)計算的節(jié)點級特征向量來構(gòu)建F。
圖 7
特征運動矩陣A是所提出的圖形模塊的關(guān)鍵元素,我們的公式將分割視為一個譜聚類問題,前提是視頻序列中的主要對象像素(其中存在此?類對象)在空間和時間上形成了一個強大的自然聚類。
圖 8 在圖 8中我們?yōu)槊總€考慮的配置提供前六個特征值A(chǔ), 降序排列
迭代知識交換系統(tǒng)的有效性,其中圖形作為網(wǎng)絡(luò)模塊的教師,然后網(wǎng)絡(luò)為下一個聚類和學(xué)習(xí)周期提供更強大的功能,在表 3和圖 9中,我們詳細介紹了多個數(shù)據(jù)集的性能演變,同時考慮了無監(jiān)督和監(jiān)督情況。
表 3 循環(huán)之間的相對百分比變化
在圖 9 中,展示了系統(tǒng)在無監(jiān)督情況下的性能演變,此時節(jié)點僅使用流特征,網(wǎng)絡(luò)模塊總是隨機初始化的。
我們系統(tǒng)的無監(jiān)督公式是最有價值的,因為該系統(tǒng)受益于時空圖的聚類能力和網(wǎng)絡(luò)的學(xué)習(xí)能力,使學(xué)習(xí)成為可能,而過程中的任何步驟都無需人工注釋。
圖 9
在圖 10中,我們展示了迭代知識交換系統(tǒng)的定性結(jié)果,我們強調(diào)兩個組件之間的協(xié)議,圖形模塊和網(wǎng)絡(luò)模塊。
我們的無監(jiān)督系統(tǒng)的定性結(jié)果,包括所有 4 個數(shù)據(jù)集的網(wǎng)絡(luò)和圖形模塊,對于 YouTube-Objects 和 DAVSOD,ground truth 有時是粗糙的,在這些情況下,我們的結(jié)果往往比注釋更精細,這強調(diào)了獲得高度準確的人工注釋的難度。
在圖 11中,我們展示了圖和網(wǎng)絡(luò)模塊在無監(jiān)督設(shè)置中的最終性能(在任何級別的訓(xùn)練或預(yù)訓(xùn)練中都沒有使用人工注釋),我們觀察到,雖然該圖顯示出優(yōu)越的性能,但單圖像網(wǎng)絡(luò)模塊也具有競爭力,并且在相同監(jiān)督水平下克服了大多數(shù)頂級方法。
表 4 用于視頻顯著目標檢測任務(wù)的 DAVSOD 數(shù)據(jù)集的定量比較
表 6 用于零樣本視頻對象分割任務(wù)的 YouTube 對象數(shù)據(jù)集的定量比較
IKE 系統(tǒng)的每個循環(huán)都需要通過圖形模塊和網(wǎng)絡(luò)模塊,給定時空圖的公式,視頻像素和圖節(jié)點之間存在一對一的對應(yīng)關(guān)系,光譜聚類問題可能看起來很棘手。
考慮到整個系統(tǒng)的復(fù)雜性與幀數(shù)成線性關(guān)系,報告每幀的計算成本,對于圖形模塊的第一個周期,實現(xiàn)需要 0.8 秒/幀:光流 0.04 秒 + 圖形數(shù)據(jù)初始化 0.18 秒 + 20 次時空圖形迭代 0.58 秒。
圖 12
只有第一個周期需要初始化,報告的數(shù)字是考慮的最大特征數(shù) (26) 和 FlowNet2.0 光流(RAFT 解決方案需要 0.33 秒/幀),網(wǎng)絡(luò)模塊需要 1.64 秒/幀:1.63 秒用于 5 個訓(xùn)練時期 + 0.01 用于推理。
IKE 所需的總時間為 5.24 秒/幀,224 × 416. 圖形模塊也可以并行化,但它不在我們當前的實現(xiàn)中,在圖 13中,我們研究了圖形模塊第一個周期的計算成本的演變,涉及特征數(shù)量和幀數(shù)量。
圖 13
雙迭代知識交換系統(tǒng)中,無監(jiān)督時空聚類模塊向深度網(wǎng)絡(luò)模塊提供監(jiān)督信號,后者又將其新學(xué)習(xí)的深度特征傳回圖形,這兩個互補模塊作為一個單一的自我監(jiān)督實體運行,并在幾個周期內(nèi)交換信息,直到達成共識。
IKE 非常符合當前視頻對象分割的需求,因為無監(jiān)督情況對于開發(fā)對未知數(shù)據(jù)強大且穩(wěn)健的方法來說是強制性的,通過將更經(jīng)典的圖聚類與現(xiàn)代深度學(xué)習(xí)的互補力量結(jié)合在一起,我們在優(yōu)化和數(shù)據(jù)驅(qū)動模型之間取得了平衡,這種方法可以為無監(jiān)督視頻分割研究提供新的思路。
如果你也喜歡我的文章,不妨點個“關(guān)注”吧!小生在此謝過了!
END
標簽:
Copyright © 2015-2022 太平洋獸藥網(wǎng) 版權(quán)所有 備案號:豫ICP備2022016495號-17 聯(lián)系郵箱:93 96 74 66 9@qq.com