視頻監控系統及其在Blackfin上的應用及優(yōu)勢
視頻監控系統從最初的模擬閉路電視監控開(kāi)始,經(jīng)歷了數字化,網(wǎng)絡(luò )化的發(fā)展,正在向分布式、智能化的方向邁進(jìn)。視頻壓縮技術(shù)的發(fā)展促進(jìn)了視頻監控系統的數字化,節約了大量的存儲空間。計算機網(wǎng)絡(luò )的普及和帶寬的增加使得城域網(wǎng)視頻監控成為現實(shí)。而經(jīng)過(guò)科研人員40多年的不懈努力,計算機視覺(jué)已經(jīng)進(jìn)入突破式發(fā)展階段。得益于計算機視覺(jué)的研究成果,智能視頻監控系統開(kāi)始得到產(chǎn)業(yè)化應用。
從上世紀90年代中期開(kāi)始,以卡耐基梅隆大學(xué)(CMU)和麻省理工學(xué)院(MIT)為代表的,多家美國高校所參與的,由美國國防高級研究項目署設立的視覺(jué)監控重大項目VSAM(Visual Surveillance and Monitoring),以及其它科研機構的研究成果,使得智能視覺(jué)分析取得了快速發(fā)展。2001年美國“911事件”,以及后來(lái)的西班牙馬德里列車(chē)連環(huán)爆炸和英國倫敦地鐵大爆炸等恐怖襲擊后,全世界范圍內對視頻監控系統,包括智能視頻分析系統的需求空前高漲。在英國全國范圍內已經(jīng)安裝攝像機420多萬(wàn)個(gè),平均每14人一個(gè),一個(gè)人一天之中可能出現在多達300個(gè)攝像機前(英國《The Daily Mail》)。國內,2007年底廣州市安裝完畢25萬(wàn)個(gè)治安攝像機,北京在26.3萬(wàn)臺攝像機的基礎上,又在所有重點(diǎn)單位、人員聚集的公共場(chǎng)所、重要的交通樞紐、城市重要基礎設施及法律法規規定的重點(diǎn)區域安裝公共圖像信息系統并且全部與警方監控網(wǎng)聯(lián)網(wǎng)。上海2010年前將在馬路上安裝20多萬(wàn)個(gè)監控攝像機,全面建立“社會(huì )防控體系”。海量的監控圖像需要視頻監控系統智能地選擇壓縮、存儲和檢索內容。
當前,除了CMU和MIT,奧地利Graz理工大學(xué)的嵌入式智能攝像機研究組,IBM的S3(Smart Surveillance System)項目組,Intel的IRISNET(Internet-scale, Resource-intensive Sensor Network Services)項目組等,分別在分布式智能監控系統的不同領(lǐng)域處于領(lǐng)先地位。Object Video, Hisign,3VR等公司率先實(shí)現了智能視頻監控的工業(yè)應用。在國內,中科院自動(dòng)化所,清華大學(xué)電子工程系和自動(dòng)化系等處于研究的前列。
2.智能視頻監控系統的技術(shù)背景簡(jiǎn)介
智能視頻監控的核心內容之一是對特定目標的自動(dòng)跟蹤。目標跟蹤可分為5個(gè)步驟,包括運動(dòng)檢測、目標分類(lèi)、目標(類(lèi)型)跟蹤、行為分析和目標(個(gè)體)跟蹤。例如對人體的跟蹤:首先從實(shí)時(shí)圖像序列(即視頻)中檢測出運動(dòng)物體,再判定運動(dòng)物體中的人體,然后跟蹤人體的運動(dòng)軌跡,并分析和選定有異常行為的人,如在車(chē)站,機場(chǎng)等遺留包裹的人,最后對行為異常的人進(jìn)行持續跟蹤。
運動(dòng)檢測是從圖像序列中將變化區域從背景圖像中提取出來(lái)。運動(dòng)區域的有效分割將大大減少后繼過(guò)程的運算量。然而,背景圖像的不穩定性,如陰影,光照,慢移動(dòng)(如蝸牛的爬行),靜移動(dòng)(樹(shù)葉的擺動(dòng))等等,也使得運動(dòng)檢測非常困難。
視頻監控系統中的運動(dòng)檢測有兩種不同的實(shí)現途徑,一種是直接利用視頻壓縮算法的中間結果,比如ADI的第三方合作伙伴利用MPEG 4和H.264編碼過(guò)程中的運動(dòng)向量,在Blackfin處理器上同步實(shí)現了運動(dòng)檢測和視頻壓縮。另外一種是獨立于視頻編碼的方法。
運動(dòng)檢測算法可按照不同分類(lèi)標準分為多種。中科院自動(dòng)化所把運動(dòng)檢測算法歸納為三種:背景消除法,時(shí)間差分法,光流法。背景消除法和時(shí)間差分法都可以看作是差分圖像法。背景消除法是目前運動(dòng)分割中最常用的一種方法,它利用當前圖像與背景圖像的差分來(lái)檢測出運動(dòng)區域。時(shí)間差分方法是在連續的圖像序列中兩個(gè)或三個(gè)相鄰幀間采用基于像素的時(shí)間差分并且閾值化來(lái)提取出圖像中的運動(dòng)區域?;诠饬鞣椒ǖ倪\動(dòng)檢測采用了運動(dòng)目標隨時(shí)間變化的光流特性,通過(guò)計算位移向量光流場(chǎng)來(lái)初始化基于輪廓的跟蹤算法,從而有效地提取和跟蹤運動(dòng)目標。該方法的優(yōu)點(diǎn)是在攝像機運動(dòng)的情況下也能檢測出獨立的運動(dòng)目標。
目標分類(lèi)的目的是從檢測到的運動(dòng)區域中將特定類(lèi)型物體的運動(dòng)區域提取出來(lái)。根據利用的信息的不同,目標分類(lèi)可以分為基于運動(dòng)特性的分類(lèi)和基于形狀信息的分類(lèi)兩種方法?;谶\動(dòng)特性的識別利用目標運動(dòng)的周期性進(jìn)行識別,受顏色、光照的影響較小?;谛螤钚畔⒌淖R別利用檢測出的運動(dòng)區域的形狀特征與模板或者統計量進(jìn)行匹配。
目標跟蹤是在連續的圖像幀間創(chuàng )建基于位置、速度、形狀、紋理、色彩等有關(guān)特征的對應匹配。依據不同的跟蹤方法可分為基于模型的跟蹤、基于區域的跟蹤、基于活動(dòng)輪廓的跟蹤、基于特征的跟蹤等。
聯(lián)合目標跟蹤與分類(lèi)(JTC)技術(shù)是信息融合領(lǐng)域新興的一個(gè)研究方向。其基本思想是,通過(guò)在目標跟蹤器和目標分類(lèi)器之間進(jìn)行雙向信息交互,來(lái)同時(shí)有效地提高目標的跟蹤精度和分類(lèi)性能。
在特定情況下需要對跟蹤目標從類(lèi)型細化到個(gè)體。這需要對目標的行為進(jìn)行分析和理解。行為理解的關(guān)鍵問(wèn)題是如何從學(xué)習樣本中獲取參考行為序列,并且學(xué)習和匹配的行為序列必須能夠處理在相似的運動(dòng)模式類(lèi)別中空間和時(shí)間尺度上輕微的特征變化。
3. 智能視頻監控系統實(shí)施的難點(diǎn)和Blackfin的優(yōu)勢
盡管已經(jīng)取得了巨大進(jìn)展,智能視頻分析領(lǐng)域仍然沒(méi)有公認的最優(yōu)方法。其自身研究?jì)热莸膹碗s性,使得研究方法和工具多樣,算法復雜度高,適用范圍有限,沒(méi)有魯棒性、準確度、速度都符合需求的普遍方法。同時(shí),視頻監控系統的網(wǎng)絡(luò )化和分布式處理的要求,以及大規模工程安裝對成本、體積和功耗的限制,使得運算能力和帶寬都在不斷提高的嵌入式處理器成為視頻監控系統的主流選擇。而非標準化的智能視頻分析,正是DSP的用武之地。
Blackfin處理器是ADI與INTEL聯(lián)合研制的會(huì )聚式處理器,它的MSA(Micro Signal Architecture)架構兼具M(jìn)CU的控制能力和DSP的高速運算能力。MCU和DSP融入同一個(gè)內核,只需要同一套開(kāi)發(fā)工具和同一套指令集。與DSP加ARM的芯片架構相比,具有軟硬件實(shí)現簡(jiǎn)單的優(yōu)勢。Blackfin支持ThreadX,Nucleus,uCOS-II,uCLinux等十多種嵌入式操作系統,為客戶(hù)提供熟悉的軟件架構基礎。Blackfin為高強度,高數據率的數字和媒體處理做了專(zhuān)門(mén)優(yōu)化,是理想的視頻處理器,而且具有極高的性?xún)r(jià)比。它的低功耗特性非常適合外殼體積小的IP攝像頭產(chǎn)品。
Blackfin的幾十個(gè)DMA通道和可靈活配置的Cache很好地滿(mǎn)足了視頻監控系統對大運算量,高數據吞吐率的要求。十級流水線(xiàn)使得Blackfin有很強的指令并行執行能力。零開(kāi)銷(xiāo)循環(huán)控制指令讓系統中的大量循環(huán)跳轉不再消耗任何處理器的時(shí)鐘周期。利用這些優(yōu)勢,real解碼器的idct4×4算法在Blackfin上速度提高了7倍。
頻數據有其自身的特性。在不同顏色空間,表示象素的每個(gè)分量通常都是8位寬度。Blackfin的4個(gè)視頻算術(shù)運算單元和視頻象素指令集大大加速了視頻運算速度。一條視頻象素操作指令可以在一周期之內完成4對視頻數據分量的加法運算,減法運算,加減混合運算,取平均值,或者相減并求絕對值等11種視頻象素運算。這些運算在編解碼算法中的運動(dòng)估計、loop filter和智能視頻分析的各種算法中大量應用。在智能視頻分析的一些基礎算子中,例如直方圖統計,中值運算,Sobel運算,形態(tài)學(xué)中的膨脹運算等都可以利用Blackfin的MIN, MAX指令來(lái)消除條件跳轉,節省處理器周期。不僅如此,Blackfin還支持13種非視頻數據的向量運算。適當設計數據結構,在前背景分離,閾值計算和更新等多個(gè)環(huán)節都可以運用Blackfin的特色指令讓智能視頻分析算法更迅捷。這些本身就很有效的指令中,大部分指令都能夠并行執行,使得Blackfin的處理能力再加倍。
4.智能視頻監控系統的實(shí)例
清華大學(xué)自動(dòng)控制系在視覺(jué)分析領(lǐng)域有長(cháng)期的研究和積累。結合ADI的優(yōu)勢,雙方在Blackfin BF561雙核處理器上實(shí)現了智能視頻監控系統。ADI提供高質(zhì)量高性能的H.264編碼算法,清華大學(xué)自動(dòng)控制系則在BF561上實(shí)現了自動(dòng)跟蹤算法。系統框圖如圖1所示。
圖1:基于BF561的智能監控終端框圖
H.264編碼算法模塊是ADI為Blackfin客戶(hù)提供的免費軟件模塊之一,目前已經(jīng)有基于BF53x和BF561兩個(gè)系列的芯片的實(shí)現。它支持完全動(dòng)態(tài)的參數配置,用戶(hù)可在系統運行時(shí)根據場(chǎng)景和網(wǎng)絡(luò )帶寬的變化改變編碼的碼率、幀率、關(guān)鍵幀間隔、量化值等等。從80KBb的CDMA網(wǎng)絡(luò )到3Mb的DVR系統都能使用同一套函數庫達到理想的編碼質(zhì)量。具有很強的適應性和靈活性。
清華大學(xué)自動(dòng)控制系的智能跟蹤算法采用單高斯背景建模的背景減除方法進(jìn)行運動(dòng)檢測,在目標分類(lèi)階段,結合了基于運動(dòng)特性的分類(lèi)和基于形狀信息的分類(lèi)兩種方法,利用人體、車(chē)輛的長(cháng)寬比例、梯度直方圖和運動(dòng)周期性等對運動(dòng)物體進(jìn)行分類(lèi)。在對同類(lèi)目標跟蹤時(shí),采用基于區域的算法,判斷連續的各幀之間運動(dòng)物體的質(zhì)心位移方向和距離?;谏鲜鋈齻€(gè)階段的算法,系統還能實(shí)現人群跟蹤,入侵檢測,人、車(chē)數量統計,遺留物體檢測,攝像頭非法遮擋和移位報警等功能。
系統中,BF561的Core A用于實(shí)現H.264編碼算法,Core B用于智能視頻分析。Core A上同時(shí)運行uCos II操作系統以及RTP和TCP/IP協(xié)議棧。YUV4:2:2視頻幀通過(guò)PPI(并行外設接口)以DMA的方式傳送到SDRAM緩沖區。Core A和Core B共享幀緩沖區。Core B首先啟動(dòng)memory DMA把視頻幀的Y(亮度)分量傳送到Core B的片內存儲區L1 SRAM的行緩沖區內。Core B對行緩沖區內的Y分量進(jìn)行背景建模和后繼的運動(dòng)檢測及目標跟蹤。如果可視區域內出現指定類(lèi)型的物體,Core B向Core A發(fā)送一個(gè)中斷信號,Core A可以通過(guò)UART接口向本地控制臺發(fā)送告警信息,或者通過(guò)網(wǎng)絡(luò )接口向遠程控制臺發(fā)送告警信息;Core B還可以修改幀緩沖區,給目標加矩形邊框以標識目標。Core A也通過(guò)一個(gè)memory DMA接收來(lái)自幀緩沖區的視頻亮度和色度數據。編碼器對Core B處理后的幀緩沖區進(jìn)行編碼。同時(shí)系統也可以通過(guò)另外一個(gè)PPI接口輸出經(jīng)Core B修改后的幀緩沖區,實(shí)時(shí)顯示跟蹤結果。目標跟蹤算法是實(shí)時(shí)的,因此不會(huì )造成編碼的延時(shí)。在未檢測到運動(dòng)物體時(shí),編碼器可以工作在低碼率或低幀率狀態(tài)下,甚至不編碼。一旦檢測到指定類(lèi)型的運動(dòng)物體,編碼器即恢復正常工作,把壓縮碼流和對應時(shí)間通過(guò)以太網(wǎng)接口上傳到管理系統。這樣既能節約存儲空間,又能方便事后對視頻錄像的檢索。
該系統還可以通過(guò)UART或者以太網(wǎng)接口設定監控區域邊界,用以標識入侵檢測的監視范圍。當有運動(dòng)物體越過(guò)邊界時(shí),系統立即向控制臺報警??刂婆_還可以向該智能監控終端發(fā)送指令改變它所執行的功能,從智能跟蹤,到入侵檢測,再到遺留物體檢測或者清點(diǎn)人數等等,自由切換。沒(méi)有Blackfin強大的處理能力和靈活性,在一個(gè)嵌入式處理器里實(shí)現如此復雜而眾多的功能幾乎是不可想象的。
5.智能視頻監控的發(fā)展趨勢
盡管智能視頻分析在視頻監控中已經(jīng)得到一定的應用,但它還有很長(cháng)的發(fā)展歷程。一個(gè)比較理想的智能視頻監控系統應該是這樣的:
如果有一天,城市的一角突然發(fā)生槍擊事件。犯罪嫌疑人立即逃向不遠處的轎車(chē),試圖駕車(chē)逃跑。然而,他的一舉一動(dòng)已經(jīng)落入了公共安全監控網(wǎng)之中,難以遁形。首先,帶有聲音識別和聲源定位功能的視頻監控系統檢測到槍聲之后立即調整攝像頭角度和方向,對準槍聲來(lái)向,同時(shí)啟動(dòng)第一次報警,報告槍擊發(fā)生的大致位置。該攝像頭采集視頻,檢測運動(dòng)人體,分析人物的行為特征,并立即定位、跟蹤嫌疑人。定位后,通知系統內處于合適位置的多個(gè)攝像頭提取嫌疑人面部特征,試圖駕駛的車(chē)輛的車(chē)牌等,并上傳到管理系統,建立數據庫表項,分發(fā)到公安局,車(chē)站,機場(chǎng),銀行,海關(guān)等重點(diǎn)單位。監控系統轉而跟蹤該車(chē)輛。警方在嫌疑人運動(dòng)的路上設置警力攔截和追捕。即使嫌疑人僥幸逃脫現場(chǎng)追捕,當他出現在全國任何一個(gè)攝像頭前的時(shí)候,仍然無(wú)法逃脫被捕的命運。
這個(gè)系統中融合了多種先進(jìn)監控技術(shù)。音視頻結合,視覺(jué)成像和非視覺(jué)成像結合,目標跟蹤和行為分析、特征識別相結合的全連通的智能視頻監控系統將是未來(lái)安防系統的趨勢。其中的各項技術(shù)都已經(jīng)分別得到了相當的發(fā)展。Blackfin在紅外攝像頭,相控陣麥克風(fēng)等方面已有許多應用。而更準確,更快速,更魯棒的智能視覺(jué)分析算法仍然是一個(gè)難點(diǎn)。ADI將會(huì )繼續在智能視頻監控領(lǐng)域與全球科研機構和企業(yè)合作,為我們創(chuàng )造更安全更美好的生活。
評論