以標題搜視頻?智能視頻檢索將更「強悍」

Time: 2020-10-15  admin    

        視頻監控在我們的生活中越來越常見,大街上抬頭就是隨處可見的監控攝像頭,有很多人的家裏也安裝了攝像頭,晝夜不停地監視和錄像。然而,有了這些錄製的視頻,不等於就可以讓目標信息一目了然,查找視頻、分析視頻的工作常常會耗用大量的時間和人力,如何才能在海量視頻中更精準、更方便、更省力地檢索到目標信息呢?

        近日,北京郵電大學先進信息網絡bbin宝盈集团創新性的提出一種基於隨機遊走規則圖卷積神經網絡的視頻-文本檢索算法,首次實現了視頻中物體間的交互關係建模,極大地提高了檢索精確度,同時也為後續視頻-文本檢索算法研究提供了新的視角,為今後新聞視頻智能剪輯、影視智能點播等應用的實現奠定了堅實的基礎。

        隨着數碼技術和網絡技術的飛速發展,視頻信息的飛快增長,電視、電影等需要保存的視頻素材也越來越多,對這些多媒體資料的存儲、管理和再利用變得非常困難。

        以往通用的視頻檢索系統是根據視頻標題作為依據進行相似度比對,經過排序得到視頻檢索結果,大量的視頻信息不僅費時費力,而且精確度差,同時還需要大量的人力進行標註。

        基於隨機遊走規則圖卷積神經網絡的視頻-文本檢索算法,是在視頻內容理解的基礎上,支持給定描述語句檢索符合其內容表述的視頻,或者將視頻作為查詢輸入獲得刻畫其內容的文本,能夠有效減少多媒體數據庫管理上的人力勞動,實現智能檢索。  

圖片關鍵詞 

可視化分析圖

        傳統的視頻-文本檢索模型主要基於視頻幀的特徵,缺乏了對視頻中出現物體細粒度的挖掘。為此,該實驗室研發團隊成員將視頻中的物體作為圖節點,交互關係作為圖邊,構建出圖模型,為解決物體間的交互關係表征這一難題,團隊還利用譜圖分析中的圖拉普拉斯變換,結合圖卷積神經網絡在譜域捕捉了物體間的交互關係,並通過嚴謹的理論推導,實現了隨機遊走規則與圖卷積神經網絡的有機結合,解決了不同密切程度的交互關係在嵌入空間的向量表示問題。

        團隊提出的基於隨機遊走規則圖卷積神經網絡的視頻-文本檢索算法,從物體級別的特徵表示入手,重點建模物體間的關聯和關係表征,有效提高了視頻和文本兩個不同模態之間的匹配一致性。在公開的MSR-VTT和MSVD數據集上綜合召回率指標分別為151.1和257.8,性能表現均達到了最高水平,極大推動了視頻-文本檢索的相關應用在未來的實際落地。該研究成果已發表在人工智能領域頂級學術會議IJCAI 2020。


分享:
Bjsyslm@163.com

bbin宝盈集团聯盟丨工作聯繫郵箱

bbin宝盈集团聯盟 版權所有 @2019 本站的內容若涉及版權問題,請及時通知我們,我們將立即予以刪除!

京ICP備18059187號-2

京ICP備18059187號-2