北理工賈云德《計算機視覺》chapter16物體識別
《北理工賈云德《計算機視覺》chapter16物體識別》由會員分享,可在線閱讀,更多相關《北理工賈云德《計算機視覺》chapter16物體識別(25頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、精選優(yōu)質(zhì)文檔-----傾情為你奉上 第十六章 物體識別 目前,物體識別的基本方法是建立物體模型,然后使用各種匹配算法從真實的圖像中識別出與物體模型最相似的物體。物體識別的正式定義如下:給定一幅包含一個或多個物體的圖像和一組對應物體模型的標記,機器應將標記正確地分配給圖像中對應的區(qū)域或區(qū)域集合。物體識別和圖像分割是緊密相關的,因為沒有物體或物體局部識別,分割就無法進行,而沒有分割,物體識別也是不可能的。 16.1識別系統(tǒng)的基本組成 可以認為,物體識別系統(tǒng)包括四個主要模塊:即模型庫、特征檢測器、假設生成(hypothesis formation)和假設驗證(hypothes
2、is verification)等模塊。圖16.1給出了系統(tǒng)不同模塊之間的作用和信息流圖。 模型庫包含有所有的已知模型。模型庫的信息取決于物體識別方法,可以是定量、定性或函數(shù)描述,也可以是精確的幾何曲面信息。在大多數(shù)情況下,物體的模型是抽象的特征矢量。特征是物體的一種屬性,比如,尺度、色彩和形狀等,特征在描述和識別物體過程中起著十分重要的作用。 圖16.1物體識別系統(tǒng)組成示意圖 輸入圖象可以是灰度圖象、彩色圖象、深度圖象或它們的組合。特征檢測器對輸入圖象的特征進行檢測,并對特征進行定位,這樣有助于假設生成。物體特征的選取取決于待識別物體的類型和模型庫數(shù)據(jù)結構。假設生成模塊使用
3、圖像特征來給場景中的物體分配一個似然值,這一步可以大大減小物體識別的搜索空間。一般來說,模型庫是一種索引圖,它有利于從所有可能的物體集合中去除那些不可能的候選者。假設驗證模塊使用物體模型來驗證假設,并進一步給出精確似然值。在所有證據(jù)的基礎上,選用具有最大似然值的物體作為識別結果。 假設生成和假設驗證在不同的識別方法中,其重要性是不一樣的。一些系統(tǒng)僅僅使用假設生成,然后選擇具有最高似然值的物體作為識別結果。模式分類方法是此種方法的一個很好的例子。另一方面,許多智能系統(tǒng)很少依靠假設生成,更多的工作是在驗證階段。實際上,經(jīng)典模式識別方法之一的模板匹配方法就沒有假設生成階段。 為了
4、實現(xiàn)上述步驟,物體識別系統(tǒng)必須選擇合適的手段和方法。對于特定的應用,在選擇合適的方法時,必須考慮許多因素和問題。在設計物體識別系統(tǒng)時必須考慮的問題有: (1) 模型表示 模型表示涉及到物體具有那些重要屬性或特征以及這些特征如何在模型庫中表示。對 于大多數(shù)物體來說,幾何特征描述是可以很有效的;但對于另外一些物體,可能需要更一般的特征或函數(shù)來表示。物體的表示應該包含所有相關信息,但沒用任何冗余信息,并且將這些信息以某種方式組織起來,使得物體識別系統(tǒng)的不同組元能夠容易訪問這些信息。 (2) 特征提取 特征提取的算法有很多,根據(jù)應用對象,應選擇可靠的特征檢測方法和特征定位方法。許多特
5、征可以在二維圖像中計算出來,但它們與物體的三維特征有關。由于圖像生成過程的特性,有些特征可以很容易地計算出來,而其它特征計算起來則非常困難。 (3) 特征模式匹配 特征模式匹配是指圖像中的物體特征同模型庫中的模型相匹配。在許多物體識別任務中,待識別的物體的數(shù)量較多,每一個物體擁有的特征也有許多。顯然,窮舉匹配方法可以解決識別問題,但識別效率太低,不是很實用。因此,在建立匹配方法時,必須考慮特征的有效性和匹配算法的高效率。 (4) 假設生成 為了有效地提高識別效率,可以根據(jù)物體特征首先建立可能的物體集合,并給每一可能的物體分配置概率值。“假設生成”過程基本上是一種啟
6、發(fā)式過程,由此可以減小搜索空間。假設生成過程特別注重使用應用域知識,將某種置信概率值分配給該應用域中的不同物體。 (5) 物體驗證 如何使用物體模型,從給定圖像中的可能物體集合中選擇最有可能的物體?每一個可能物體的存在可以用它們的模型來證明。我們必須測試每一個可能的假設來驗證一個物體的存在或忽略這個物體的存在。如果模型是幾何模型,則很容易用攝像機的位置和其它場景參數(shù)來驗證物體。 按照問題的復雜性,圖16.1的一個或多個模塊可能變得不重要,這主要取決于問題的復雜度。舉例來說,基于模式識別的物體識別系統(tǒng)不使用任何基于特征的匹配或物體驗證;它們直接給物體指定概率并選擇具有最大概
7、率的物體。 16.2物體識別的復雜度 我們知道,場景圖像與照明、攝像機參數(shù)、攝像機位置等因素有關,因此,要從一幅圖象中識別物體,特別是從包含多個物體的圖像中識別特定的物體,必須考慮這些因素。物體識別的復雜度依賴于以下幾個因素: (1) 場景的不變性 場景的復雜度取決于獲取圖像時的條件(照明、背景、攝像機參數(shù)和觀察點 )是否同模型建立條件相似。如前幾章所置述,場景的條件顯著地影響同一物體的圖像。在不同的場景條件下,不同特征檢測器的性能顯著不同。因此必須考慮背景、其它物體以及照明的特性,以決定哪種特征可以得到有效而可靠地檢測。 (2) 圖像模型空間 在某
8、些應用中,三維物體可以近似地認為是二維物體,此時的物體模型可以用二維特征來表示。如果模型是三維且不能忽略透視效應,那樣情況就變得很復雜。在這種情況下,特征是在二維圖像空間中檢測的,而物體的模型可能是在三維空間中表示的。這樣,同一個三維空間特征可能在三維圖像中表現(xiàn)為不同的特征。在動態(tài)圖像分析中,由于物體運動,這種情況也會發(fā)生。 (3) 模型庫中物體的數(shù)目 如果物體的數(shù)目很少,則可以直接使用順序窮舉匹配方法,無需假設生成階段。如果物體的數(shù)目很大,則假設生成階段是很重要的。用于物體識別的特征選擇計算量也隨著物體數(shù)量的增加而迅速地增加。 (4) 圖像中物體的數(shù)目和遮擋問題 如果圖
9、像中只有一個物體,它可能是完全可見的。隨著圖像中物體的數(shù)目增加,遮擋概率也隨之增加。在許多圖像分析中,遮擋是一個嚴重的問題。遮擋導致了原先特征點的消失,新特征點的產(chǎn)生。因此,在假設驗證階段就應該考慮遮擋問題。一般來說,識別任務的難度隨著圖像中物體數(shù)目的增加而增大。圖像中遮擋物體的存在也使圖像分割難度增大。 根據(jù)物體識別任務所在的空間,常把物體識別分為二維識別和三維識別。 (1) 二維 在許多應用中,圖像是從足夠遠的距離上獲取的,因此可以認為圖像是通過正交投影 生成的。如果物體總是在場景中的一個穩(wěn)定位置,那么也可以認為是二維情況。在這些應用中,可以使用二維模型
10、數(shù)據(jù)庫。二維物體識別一般有兩種可能的情況: l 物體沒有被遮擋 ,如遙感和許多工業(yè)應用場合。 l 物體被其它物體遮擋或者只有部分可見,如識別堆放物體問題。 (2) 三維 從不同的視角獲取同一物體的圖像可能是完全不同的,此時識別物體需要三維模型。在物體識別過程中,還要考慮投視投影以及獲取圖像的視角的影響。對于三維情況,有兩種用于物體識別任務的信息: i 灰度圖像 灰度圖像沒有明顯包含物體表面信息,用灰度圖像可以識別對應于物體三維結構的特征 i 2.5維圖像 在許多應用中,以觀察者為中心的坐標系中的物體表面可以直接通過測距成像傳感器獲取的距離圖像或通過立體灰度圖像對計算出來的
11、深度圖來表示,這里的深度圖和距離圖像即為 2.5維圖像。物體的曲面信息可以有效地用于物體識別任務。 16. 3圖像矩不變量特征表示 矩不變量特征主要是針對二維識別情況提出來的。人是很容易從圖象中識別出特定的物體形狀;但對于機器視覺來說卻是一件難事。一方面,圖象分割受到背景與物體之間的反差影響以及光源、遮擋等影響,不容易實現(xiàn);另一方面,攝象機從不同的視角和距離獲取的同一場景的圖象是不同的,這樣給形狀的提取和識別帶來很大困難。人們對二維形狀的提取和識別已經(jīng)做了大量的研究,提出了許許多多的方法。本節(jié)僅僅介紹一種被廣泛使用的矩不變量特征。 矩不變量是指物體圖象經(jīng)過平移、旋轉(zhuǎn)以及比例變換仍然不變的
12、矩特征量。設二維物體的圖象用表示。其階矩定義為: (16.1) (16.2) 其中 零階矩,當相當于物體密度時,則零階矩是密度的總和,即物體的質(zhì)量。一階矩和分別除以零階矩后所得的和是物體質(zhì)量中心的坐標,或者直接表示的是區(qū)域灰度重心的坐標。 中心矩反映區(qū)域中灰度重心分布的度量。例如和分別表示圍繞通過灰度重心的垂直和水平軸線的慣性矩。若>,則可能是一個水平方向拉長的物體。和的幅值可以度量物體對于垂直和水平軸線的不對稱性。如果是完全對稱的形狀,其值應為零。 規(guī)范化中心矩記作,定義為 (16.
13、3) 其中 利用二階和三階規(guī)范化中心矩可以導出下面七個不變矩組: (16.4) (16.5) (16.6) (16.7) (16.8) (16.9) (16.10) Hu M.K.在1962年已
14、證明這個矩組對于平移、旋轉(zhuǎn)和比例變化都是不變的。 在實際中,用上式計算形狀的矩特征不變量,其數(shù)值分布范圍在之間,顯然,矩不變量特征值越小,對識別結果的貢獻也越小。為此,可以對上述七個矩不變量進行如下修正: (16.11) 用上述公式得到矩特征不變量值分布范圍大約在之間. 在使用矩不變量時,還要注意以下幾個問題: (1) 二維矩不變量是指二維平移、旋轉(zhuǎn)和比例變換下的不變量,因此,對于其它類型的變換,如仿射變換、射影變換,上述的矩不變量是不成立的,或只能作為近似的不變量。 (2) 對于二值區(qū)域圖像,區(qū)域與其邊界是完
15、全等價的,因此可以使用邊界的數(shù)據(jù)來計算矩特征,這樣可以大大提高矩特征的計算效率。 (3) 矩特征是關于區(qū)域的全局特征,若物體的一部分被遮擋,則無法計算矩不變量,在這種情況下,可以使用物體區(qū)域的其它特征來完成識別任務。 16.4三維物體模型表示 圖像是場景在圖象平面上的一種透視投影表示,因此在“以攝像機為中心的坐標系”,或“以觀察者為中心”的坐標系中表示物體是很自然的,當然也可以在“以物體為中心”的坐標系中表示物體,或在世界坐標系中表示物體。不過,選擇合適的坐標系會有利于坐標的變換、特征檢測和后處理等有關算法的有效實現(xiàn)。 在工程研究領域,人們常常通過犧牲某一部分的代價來換取另一
16、部分的高性能。在機器視覺領域,為了提高某一算法的有效性,通常是以增加運算量或增加計算成本(時間、存貯空間或硬件成本)為代價的。用于物體識別的表示也不例外。因此,設計者必須認真考慮系統(tǒng)設計問題中的參數(shù),一般選擇最好的表示。目前,人們已經(jīng)開發(fā)出許多物體表示方法這些方法大致分為三大類: i 基于表面的物體模型表示方法,如表面片、網(wǎng)機表示等。 i 基于體積的物體表示方法,如結構立體幾何、體元或體系表示。 i 基于函數(shù)的表示方法,樣條函數(shù)、超二次曲面等到。 下面討論幾種物體識別的常用表示方法。 16.4.1 多視圖表示 如果要通過圖像識別三維物體,則三維物體必須由若干幅圖
17、像來表示,這些圖像是從空間中任意點或從特定點拍攝的。對于大多數(shù)物體來說,必須獲取表示該物體各個方向的形態(tài)的大量圖像才能實現(xiàn)有效的物體識別任務。 用圖像表示物體的一種方法是朝向圖(aspect graph)表示,朝向圖包含了一個物體的所有穩(wěn)定的視圖。以及所有穩(wěn)定視圖之間的關系。圖16.2給出了一個簡單的物體及其朝向圖,朝向圖的每一個結點表示一個穩(wěn)定的視圖,結點連線表示從一個穩(wěn)定視圖到另一個穩(wěn)定視圖的過程。 圖 16.2 一個簡單物體朝向圖 16.4.2 結構立體幾何 結構立體幾何(constructive solid geometry, CGS)方法使用簡單的立體基元
18、和一組布爾運算來表示物體,立體基元包括長方體、圓錐、圓柱和球等簡單的三維形狀,布爾運算是指:并、交、差。CGS表示式如下:
19、分有限。這些表示常用于CAD/CAM應用中的物體表示。 圖 16.3 物體的CSG表示示意圖 圖16.4 動物的參數(shù)化表示 16.4.3 體積表示 三維物體可以用該物體所占三維空間的非重疊子區(qū)域來表示,即空間占有量。一般非重疊子區(qū)域可以分為標準和非標準兩大類。標準子區(qū)域是指正方體、長方體等基本體素(voxel),利用這種體素構造物體的方法稱為體素表示。圖16.5給出了物體的體素表示。 非標準子區(qū)域是指三維物體本身具有的特定的體積單元,利用這種體元構成的三維物體表示稱之為單元分解(cell decomposition)表示方法。單元分解將三維物體分割成更小的單元
20、,單元與單元之間不共享體積,將相鄰單元之間的這種關系稱為準不連接(quasi-disjoint)。唯一的運算是"粘接",如圖 16.6所示。通常要求分解后的單元不包含有孔,而且能夠進行簡單的連接?,F(xiàn)在的兩種常用的單元分解方法是“八叉樹”和“K級樹”,它們可以通過遞歸體積分解過程來構造。單元分解的準不連接性質(zhì)和占有單元,在一些算法中是非常有用的,質(zhì)量可通過計算各個簡單單元的質(zhì)量并求和來獲得。這樣可以表明立體是否連成一起,或是否有孔洞,并且能夠容易地以單元分解和空間占有(Spatial occpancy)的形式表示非一致的對象(人體胸腔內(nèi)部組織構造),此時在每一個單元中將保留CT數(shù)值,或物質(zhì)的編碼
21、信息,而不是以比特表示的“實或空”的信息。 空間占有量表示方法包含了物體的詳細描述,這是一種低層次的描述。這種類型的表示必須經(jīng)過處理才能得到物體的特定特征,以使得假設生成過程成為可能。 圖16.5物體的體元表示 圖 16.6 單元分解示意圖 16.4.4 掃掠表示:廣義柱面 物體形狀的掃掠表示包含一條作為軸線的三維空間曲線,一個二維截面圖,和定義截面如何沿空間曲線掃掠的掃掠規(guī)則,如圖16.7所示。其中,二維截面可以沿著脊梁線光滑地變化,柱體軸是用虛線表示的,坐標軸是相對于柱體中心軸畫出的,每一點處的截面垂直于柱體中心軸 對于許多工業(yè)零件或其它物體,物體
22、的截面一般沿空間軸光滑變化,在這種情況下,這種表示方法是令人滿意的。但對于任意形狀的物體,光滑條件通常是不滿足的,因而這種表示也是不合適的。 圖16.7物體的廣義柱面表示。 16.4.5函數(shù)表示 我們在第七章和第十三章介紹了大量的函數(shù)據(jù)表示方法,比如三次曲線,雙三次曲面等。這些曲線與曲面是從計算幾何發(fā)展起來的,適應于曲線和曲面設計。在設計過程中,一般不需要所設計的曲面與某一已知物體形狀完全一致,比如,人的手指用圓柱體近似等。但是,在物體識別領域,為了唯一地識別物體,必須使用一種準確的函數(shù)來描述一個已知物體,當然,在實現(xiàn)中有很大的難度,比如,常常出現(xiàn)相同或相近的物體形狀會有完全
23、不同的函數(shù)表示。在計算機視覺領域使用的另一類函數(shù)是廣義圓柱面和超二次曲面[Pentland 1986,Bajcsy 1987],這類函數(shù)可以用于一大類物體建模,并具有簡潔性。 16.4.6 三角形網(wǎng)面表示 物體三維形狀模型的更一般表示是多邊形網(wǎng)面表示,其中應用最為普遍的是三角形網(wǎng)面表示。一個物體三維形狀數(shù)據(jù)通常有兩種途徑得到:一種是根據(jù)實際物體的幾何形狀通過CAD方法建立,這種方法對于規(guī)則形狀的物體建模十分有效,比如,機械零件、汽車、飛機等。對于形狀十分復雜的物體,比如動物、天然物體,則可以利用測距成像或立體成像系統(tǒng)來獲取,圖16.8a就是利用激光三角測距成像得到的深度圖。從物體的不同方向
24、獲取一系列深度圖并鏈扣起來[Turk 1994],就形成物體完整的三維形狀數(shù)據(jù),然后再用三角形網(wǎng)面表示出來,如圖16.8b所示。圖16.9是圖16.8b網(wǎng)面模型的多分辨率表示[Johnson 1988]。選擇適當?shù)姆直媛时硎炯瓤梢员3衷形矬w的形狀,又可以大大減少冗余數(shù)據(jù)。 圖 16.8 視覺方法建立小鴨玩具模 (a)深度圖像序列中的一幅2.5維圖像 (b)用鏈扣技術得到的完整三維形狀模型 圖16.9 三維模型多分辨率表示 16.5 特征檢測與識別策略 進行物體識別的第一步是物體特征檢測,然后,基于檢測出來的圖像特征對圖像中可能的物體建立假設公式,并使用
25、物體模型來驗證假設。并不是所有的物體識別方法都需要很強的假設公式和驗證步驟。大部分識別策略已經(jīng)演化,將假設和驗證這兩步以不同的比例組合起來。圖16.10所示的是假設和驗證的三種不同可能組合方法。即使在這些組合中,應用競爭(由本節(jié)前面討論因素來描述)決定如何實現(xiàn)其中的一步或兩步。下面我們將討論幾種常用的特征以及用于識別不同環(huán)境中物體的基本策略。 圖16.10識別策略需要同時使用假設生成步驟和驗證步驟或其中的一個步驟,取決于問題的復雜度 16.5.1 特征檢測 用于物體識別的特征有許許多多,但大部分特征是基于圖像中的區(qū)域或邊界。假設區(qū)域或封閉的邊界對應于一個實體,該實體或者
26、是一個物體,或者是物體上的一部分。下面介紹三類常用的特征。 (1)全局特征 全局特征通常是圖像區(qū)域的一些特征,如面積、周長、傅里葉描述子和矩特征等。全局特征可以通過考慮區(qū)域內(nèi)的所有點來得到,或只考慮區(qū)域邊界上的所有點來得到。在每一種情況下,目的都是為了找到描述子,該描述子是通過考慮所有點位置、強度特性和空間關系來得到。這些特征在本書不同的章節(jié)中都討論過。 (2)局部特征 局部特征通常位于物體的邊界上或者表示區(qū)域中可分辨的一個小曲面,比如曲率及其有關的性質(zhì)就屬于局部特征。曲率可能是邊界曲率,也可能是從曲面上計算出來的。曲面可以是強度曲面,或是2.5維空間曲
27、面。高曲率點,也叫做角點(Corner),在物體識別中起著重要的作用。局部特征可能包含一個小邊界段或是一個表面片的特定形狀。一些常用的局部特征是曲率、邊界段和角點。在有遮擋或圖像不完整的情況下,使用物體的局部特征比用物體的全局特征更有效。圖16.11所示的是一個物體的局部特征以及特征的圖表示。 圖 16.11 物體局部特征及其圖表示 (3)關系特征 關系特征是基于區(qū)域、封閉輪廓或局部特征等不同實體的相對位置建立的。這些特征通常包括特征之間的距離和相對方位測量值,它們在基于使用圖像區(qū)域或局部特征來識別和描述多個實體或物體時是非常有用的。在多數(shù)情況下,圖像中不同實體的相對
28、位置就完全定義了一個物體。完全相同的特征,但關系特征稍微不同,則可能表示完全不同的物體。 圖16.12使用多局部和全局特征實現(xiàn)物體的局部表示 在圖16.12中,我們給出物體和用特征進行物體描述的方法。局部特征和全局特征都可以用于描述一個物體。物體之間的關系可以用于生成復合特征。 16.5.2 特征分類 分類的基本思想是基于特征的匹配和識別。模式識別方法就屬于此種類型,并在許多領域中得到廣泛的應用。神經(jīng)元網(wǎng)絡方法也屬于此種類型。這里簡單地討論一些常用的分類方法。假設N個特征已經(jīng)從圖像中檢測出來,并被規(guī)范化,以便可以表示在同一度量空間。接下來假設一個物體的特征可以表示為
29、N維特征空間中的一個點,其中N維特征空間是為特定物體識別任務而定義的。 圖16.13 二維空間分類圖 (1)最近鄰分類器 假設有類物體,。第類物體模型(理想特征值)的第個特征表示為,,其中為第類物體模型的特征數(shù)。圖16.13所示的是一個二維特征空間。為了確定一個物體所屬的類別,我們可通過計算該物體特征與模型特征空間中每一類物體特征之間的距離來測量該物體與物體模型的相似性,并將該物體分配給最近的一類。此距離可能是歐幾里德距離,或者是特征的任何加權組合。通常,我們計算未知物體到類物體之間的距離如下: (16.12)
30、 或 (16.13) 其中,是一個權重系數(shù)。因為特征空間中,不同的特征對物體分類的貢獻是不一樣的,對于貢獻大的特征,可以分配較大的權重系數(shù),而對那些對噪聲十分敏感的特征,則取較小的權重系數(shù)。上式的距離計算也可以采用其它的距離公式,如取絕對值等。 根據(jù)式(16.12)或(16.13),物體分類決策函數(shù)為: (16.14) 則 這一決策方法稱為最小近鄰法。這一方法的錯誤分類率分析見教材[邊,1988
31、] 在實際中,找出某一特定的物體可能是很困難的,因為許多物體可能同屬于一類,如圖16.14所示,其中,特征空間中的每一簇點表示一類物體。表示物體類別簇點矩心或每一類的最近點都可認為待識別的物體類別。在這種情況下,用于分類物體的距離測度有兩種: i 將一簇點的矩心作為原型物體的特征點,計算到此點的距離。 i 計算到每一類最近點的距離。 圖16.14物體在特征空間中表示為點的示意圖 (2)貝葉斯分類器 當物體在特征空間中的分布不象上面所示的那么直接時,可用貝葉斯方法來識別物體。通常情況下,不同物體的特征值有著非常嚴重的重疊。由圖16.15中所示的一維特
32、征空間可知,幾個物體可能具有相同的特征值。因此,對此特征空間的一次觀測可能會得到多個滿足條件的候選物體類別。在此種情況下,可以用貝葉斯方法來進行決策。 圖16.15條件概率密度函數(shù),表示每一類物體特征值的概率 貝葉斯方法使用了有關物體特征的概率知識和物體出現(xiàn)的頻度。假設已知類物體出現(xiàn)的概率為,即先驗知識是。因此,在缺乏其它知識的情況下,可以通過把未知的物體分派給最大的那一類來使誤差概率最小。 關于物體的類別決策通常是基于特征觀測做出的。給定概率值,如圖16.15所示。條件概率告訴我們:基于所提供的概率信息,如果觀測的特征值是,那么此物體屬于類的概率為?;谶@種知識,
33、我們可以計算物體的后驗概率。后驗概率是在給定信息和觀測值的情況下,未知物體屬于類的概率。用貝葉斯規(guī)則,此概率值為 (16.15) 其中 (16.16) 未知物體應分派給有最高后驗概率的那一類。從上面的公式可以看出,如圖16.16所示,后驗概率取決于物體的先驗知識。如果物體的先驗概率改變了,結果也會變。 上面討論了用于一個特征識別的貝葉斯方法。這種方法很容易推廣到多特征情況。 圖16.16 兩種不同先驗概率值對應的后驗概率值示意圖 16.5.3 特征匹配
34、 分類方法使用了有效的特征和應用域知識。在許多應用中,很難得到有關特征概率和類別概率的先驗知識,或得到的數(shù)據(jù)不足以設計分類器。在這種情況下,可以使用模型直接匹配未知物體,并選擇最佳匹配為最終分類結果。下面討論一些基本的匹配方法。 (1) 特征匹配 假設每一個特征類別是由它的特征來表示的。同上面一樣,假設第類物體的第個特征值表示為。對于一個未知物體,其特征表示為。該物體和第類的相似性由下式給出: (16.17) 其中,是第個特征的權值。權值的選擇是以特征的相對重要性為基礎的。第個特征相似值是,它可以是絕對差、規(guī)范化差或
35、其它距離測量值。最常用的方法是用下式并考慮同特征一起使用的權值規(guī)范化。 (16.18) 如果是最高相似度值,則標記物體為類。在此方法中,使用的特征可能是局部的,也可能是全局的。注意此方法沒有使用特征之間的任何聯(lián)系。 (2) 符號匹配 一個物體不僅可以用它的特征來表示,而且可以用特征之間的聯(lián)系來表示。特征之間的關系可以是空間的,或者是其它形式的。在這樣的情況下,物體可能被表示為一個圖形。如圖16.11所示,圖形的每一節(jié)點都表示一個物體,弧線連結節(jié)點表示物體之間的聯(lián)系。因此,物體識別問題可以認為是圖形匹配問題。
36、 一個圖形匹配問題可以定義如下:有兩個圖形和,包含個節(jié)點,其中表示圖形數(shù),表示節(jié)點數(shù),節(jié)點和節(jié)點之間的聯(lián)系表示為。在圖形上定義一個相似性測量值,該測量值包含了所有節(jié)點和函數(shù)的相似性。 在機器視覺的多數(shù)應用中,待識別的物體可能是部分可見的。因此,一個識別系統(tǒng)必須能從物體的部分視圖來識別它們。那些使用全局特征和要求所有特征都存在的識別方法在這些應用中是行不通的。從某種意義上,部分視圖識別問題和圖形學中研究的圖形嵌入問題是類似的。但當我們開始考慮節(jié)點相似性和節(jié)點之間關系時,物體識別中的問題與圖形學問題就不同了。 我們將在16.6節(jié)中,詳細討論這種匹配。 16.5.4特征
37、標記 如果物體的數(shù)量很大,并且無法使用特征空間劃分來求解,那么索引方法就變得很有吸引力了。上面討論的符號匹配方法是一種序貫方法,需要未知物體和所有物體進行比較。顯然,這種方法無法用于含有大量物體的情況。對于含有大量物體的情況,應該使用假設生成方法來減小搜索空間。然后在減小后的特征空間中,每一個物體模型與圖像進行比較來實現(xiàn)識別物體。 特征索引方法使用了物體的特征值來構造模型數(shù)據(jù)庫。當在一幅圖像中檢測到索引集中的一個或多個特征時,則可以用此特征來減小搜索空間,從而減小用于物體識別的總的時間。 索引集中的特征必須用模型庫知識來確定。如果這樣的知識無法得到,就應該分析每一
38、個來自特征集中特征出現(xiàn)的頻率,并在特征頻率的基礎上,生成用于構造數(shù)據(jù)庫的索引集。 在索引數(shù)據(jù)庫中,除了物體的名字和它們的模型外,有關物體在特征空間中出現(xiàn)的位置和方向信息都應該保存,因為這種信息在驗證階段很有幫助。 一旦生成候選物體集,就應該進入驗證階段,以選擇最佳候選物體。 16.6 驗證 給定一幅物體的圖像,在圖像中找出某類物體出現(xiàn)的數(shù)量及出現(xiàn)的位置,這是基本的驗證問題,而不是物體識別問題。顯然,可以用驗證算法來一個一個地窮舉來驗證每一個模型在模型庫中的存在。但是,這樣的窮舉方法在模型庫較大時不是有效的方法。實際上用于驗證的方法有許多,這里只討論一些常用的方法
39、。 16.6.1模板匹配 假定有一個模板,我們希望檢測圖像中的模板情況。顯而易見,把模板放置在圖像中的某一位置,通過比較模板中的強度值和圖像中對應值,可以檢測模板在哪一位置的存在。因為強度值很少能夠很好地匹配,我們需要測量模板強度值同對應圖像值之間的不相似度。下面定義幾種測量手段: (16.19) (16.20) (16.21) 其中是模板區(qū)域。 誤差平方和方法是最流行的測量方法。在模板匹配的情況下,這種方法可以間接計
40、算,計算成本也可以大幅度降低。幾種測量定義如下: (16.22) 既然假設和是定值,那么就是一種誤匹配測量方法。獲取模板所有的位置和情況的合理策略是移動模板,并在圖像中的每一點使用匹配測量方法。這樣,對于的模板,我們計算: (16.23) 其中是對應于模板在圖像中的位移。這種算子稱為和之間的互相關。 我們的目的是找到是局部最大并且超過某一閾值的位置。然而,當假設和是常量時,上述計算將會引入一個小問題。將這一計算作用于圖像上時,模板是常數(shù),但會變化。由于值取決于,因此它無法在不同位置上指示出正確的匹配。這一問
41、題可以通過歸一化互相關方法來求解。匹配測量值可以使用下式計算: (16.24) (16.25) 由上式可見,在時,在處取最大值。在圖16.17中,我們給出了一幅圖像,一個模板,及使用上式計算的結果。應該指出,在模板的位置上,我們得到的是局部最大值。 在二進制圖像中,上面的計算可用大大地簡化。在光學計算中,模板匹配方法是一種非常流行的方法:用卷積的頻域特性來簡化算式。 模板匹配的主要局限是模板只能進行平行移動。在旋轉(zhuǎn)或大小變化的情況下,它是無效的。在物體只有部分是可視圖的情況下,它也無法工作。
42、 圖 16.17 模板匹配實驗結果 16.6.2形態(tài)方法 形態(tài)方法也可以用來檢測模板的存在及其位置。對于二進制圖像,使用結構元素作為模板并打開圖像,將產(chǎn)生與模板匹配的所有位置。對于灰度圖像,可以使用灰度圖像形態(tài)學。這些結果見圖16.18,(a) 結構元素,(b)一幅圖像,(c) 同構開放。 圖 16.18 形態(tài)方法匹配示意圖 16.6.3符號 如上面所討論的,如果物體模型和未知物體表示為圖形,那么就必須使用一些方法來匹配這種圖形表示。在此,我們將定義這些方法所基于的基本概念。 (1) 圖形同構性
43、 給定兩個圖形 和,在和之間找到一個的映射(同構),那么對于,,以及對于連結任意一對節(jié)點和的中的每一個邊緣,有一條連結和的的邊緣。 圖形的同構性只用于物體完全可見的情況下。如果一個物體是部分可見,或一個2.5維描述與一個三維描述進行匹配,則使用圖形嵌入方法或子圖同構性方法。 (2)子圖同構性 在一個圖形和另一個圖形的子圖之間找出同構性。 這些方法在用于匹配時存在的問題是圖形同構性問題。對于任何合理的物體描述,匹配所需的時間大得不能接受。幸運的是,我們可以使用比圖形同構算法所使用的更多的信息。根據(jù)節(jié)點的性質(zhì),這一信息是可以得到的。目前,人們提出了許多
44、啟發(fā)式方法來求解圖形匹配問題。這些匹配方法考慮了如下問題: i 性能和關系的變化 i 性能和關系的缺乏 i 模型是一類物體的抽象表示 i 情況可能包含額外信息 16.6.4類比法 兩條曲線之間相似性測量可以在同一個參考系坐標下通過比較二者,如圖16.19所示.并直接計算每一點處二者的差值來實現(xiàn)[Jain 1995]。注意,在圖16.19中,差值是沿x軸的每一點測量的。將總是沿某一軸進行測量的。總的差值是絕對誤差值的總和或者是誤差平方和。如果沒有給定準確的配準,那就必須使用一些基于相關方法的變異公式。 為了使用三維模型識別物體,你可以使用計算機圖形學的渲染方法(render
45、ing)來在圖像中找出物體的外觀,然后同原始圖像進行比較,以驗證物體的存在。由于用于渲染物體的參數(shù)通常是未知的,因此常??紤]三維模型上的一些顯著的特征,在圖像中檢測這些特征,并進行匹配,以驗證模型在圖像中是否存在。這也導致了研究物體三維表面特性及三維物體投影的理論發(fā)展,以確定用于物體識別的不變性。不變性通常是圖像中的特征和特性,它們常常對物體的方位和場景照明非常敏感。這些特征在從它們的二維投影中檢測三維物體是非常有用的。 圖16.19通過直接測量兩個實體的誤差來實現(xiàn)兩個實體的匹配示意圖 16.7物體定位 物體識別通常是指從一幅圖像中確定某一已知物體是否存在以及該物體在圖像中的
46、位置和方向。人們通常將物體在圖像中的位置和方向估計稱為物體定位估計(pose estimation)。確定物體在圖像中的位置具有重要的實用價值,比如,實現(xiàn)與場景交互作用,分析場景幾何關系,描述場景,推理場景等。目前,物體定位算法已經(jīng)用于改進物體識別算法[Grimson 1991],比如,通過驗證策略(testing strategy)精確驗證物體識別假設;也可以用于有效地識別和跟蹤時變圖像序列中的物體[wheeler 1996,賈 1996];還可以用于檢測和推理有關遮擋問題。 一般視覺定位系統(tǒng)的輸入是距離圖像(3D)序列和高度圖像(ID)序列,而物體的模型一般是三維模型(3D-model)
47、,這樣就出現(xiàn)了兩種最富挑戰(zhàn)性的定位問題:3D模型在3D圖像中的定位問題,簡稱3D-3D定位估計;3D模型在2D圖像中的定位問題,簡稱3D-2D定位估計。下面介紹這兩種定位估計方法。 16.7.1 三維-三維物體定位 3D-3D定位算法的基本思想是在兩組給定的3D點集中,尋找對應關系,一組是3D模型上的點集,另一組是3D圖像中的點集。3D-3D定位問題可以分為兩個階段,第一個階段是粗定位(rough pose estimation),第二個階段是精細定位(pose refinement)。由于這兩個階段定位物體的條件和目標不全一樣,因此,所創(chuàng)立的算法也不一樣。粗定位是指在深度圖像中確定物
48、體出現(xiàn)區(qū)域和大致的方向,而精細定位是指給定一幅3D圖像和一個物體的粗略位置,然后建立3D模型與3D圖像之間的匹配目標函數(shù),最佳匹配對應的3D模型定位參數(shù)就是物體在圖像中的位置和方向。顯然,粗定位需要更多的應用領域知識和啟發(fā)式搜索等算法。目前的部分3D-3D物體定位基本上都假設物體的粗略位置是已知的,實際上該位置是由人來確定的。 3D-3D精細定位可以簡單地表述如為:給定模型上的一點和模型的當前位置,在3D圖像中找出對應點。求對應點的最直接方法是在三維直角坐標空間中求最近距離的點。數(shù)學上,3D模型中的一點x與3D圖像點y的最近距離定義為 其中,是3D圖像點集,上式中搜索最近點的理論復雜度
49、為O(||)。 如果圖像上一組點與模型上一組點的距離都達到最近,則圖像與模型對正(alignment)。從模型的初始位置一直到對正位置,實際上是一個剛體變換。剛體變換仍然用一個矢量對表示,是一個旋轉(zhuǎn)矩陣,是一個3D平移矩陣矢量。每一個對應相對于定位參數(shù)提供3個線性約束 (16.27) 通常,3D數(shù)據(jù)點補噪聲污染 其中是一個隨機3D變量,假定服從均值為0的正態(tài)分布,則對于n個對應點, 求解定位參數(shù)變?yōu)閷ψ钚?/p>
50、二乘方誤差求極小化 (16.28) 上式看起來比較容易求解。顯然旋轉(zhuǎn)矩陣只有3個自由度,因此必須滿足 其中第一個約束表示R的各列是正交的,第二個約束條件保證旋轉(zhuǎn)變換是剛體變換。在實際中,要考慮這些約束又要使用線性求解的方法有相當?shù)睦щy,因此,通常使用四元數(shù)矢量q來表示旋轉(zhuǎn)變換(見第十二章),,其中是一個標量,這樣,剛體變換可用7個矢量p來表示 (16.29) [Sanso 1973]首先將四元數(shù)表示用于攝影測量領域3D-3D定位問題,然后由[
51、Faugeras 1986] 引入計算機視覺領域求解物體定位問題。使用四元數(shù)表示求解式(16.28)可以得到解析解,研究這一工作的還有[Horn 1987]、[Haralick 1989]和[Arun 1987]。 (1)M-估計 如果觀察數(shù)據(jù)的誤差不服從正態(tài)分布,則最小二乘法誤差估計方法就不適用上述定位參數(shù)的求解,此時,可以使用M-估計算法[Haralick 1989], M是指最大似然估計(Maximun likelihood estimation)。M-估計算法是一種魯估計算法,其最一般形式為 (16.30) 其中是關
52、于誤差 的任意函數(shù),的等價概率分布函數(shù)是 (16.31) 這樣,M-估計是的最大似然估計。 如前所述,最小二乘估計對局外點十分敏感。最小二乘估計對應于的M-估計是 (16.32) 相對于p求E的偏導數(shù)并置偏導數(shù)等于0: (16.33) 令則有 (16.34) 是一個權重系數(shù),當使用純最小二乘方估計時, ,即每一個誤差值具有相等的置信度,而與誤差值大小無關。為了避免局外點對估計的
53、影響,可以使用如下閾值化條件 (16.35) 即當某點測量誤差大于閾值時,就忽略該點。關于,還有其它幾種函數(shù)可供選擇,比如Lorentz's函數(shù)[Press 1991]等 (16.36) (2)精確定位魯棒法 (16.30)式可以重新寫為 (16.37) 是一組模型點(相對于觀察者方向是可見的),是第i個對應點對之間的3D距離,定義為 (16.38) (
54、16.39) 上式建立了表示旋轉(zhuǎn)和平移矢量與誤差梯度之間的關系。這樣,首先在初始位置上計算誤差函數(shù)E的梯度方向,然后在梯度方向求目標函數(shù)極小值對應的位置,再求新位置的誤差函數(shù)值,這樣一直迭代下去。直到前后相鄰兩個位置對應的誤差函值小于某一個預定值為止,圖16.20是使用上述算法的實驗結果[wheeler 1996] 圖16.20 玩具狗3D定位實驗結果 (a) 原始高度函數(shù) (b)原始距離圖象 (c)模型初始位置圖(20mm平移,30度旋轉(zhuǎn)) (d)最后位置估計結果 16.7.2 二維-二維物體定位 上一節(jié)討論的3D-3D物體定位是在一幅距離圖像中,用3D模型表面
55、點去匹配圖像3D點。本節(jié)討論的3D-2D物體定位是在一幅亮度圖像中,用三維物體模型與二維圖像特征點進行匹配,顯然3D-2D物體定位是一個不適定問題,其求解方法與3D-3D完全不同。在3D-3D定位中,物體3D模型是由表面三角片組成,匹配中圖像3D點與3D模型點的最近距離實際上是圖像3D點與3D模型三角片之間的最近距離。在3D-2D匹配中,由于輸入的是一個亮度圖像,只包含了物體某一個朝向(aspect)的亮度分布,而我們可用的匹配特征則是物體在此朝向時表面處的邊緣特征。因此,用于3D-2D定位的物體模型必須包含物體邊緣特征,這樣,3D模型匹配與亮度圖像的匹配就變?yōu)?D模型的邊緣與亮度圖像中的邊緣
56、之間的匹配。 由上述的討論可知,3D-3D定位只涉及到物體固有的幾何特征——3D幾何形狀,并且匹配空間和數(shù)據(jù)空間都是3D空間,而3D-2D定位不僅涉及到受許多其它因素影響的亮度函數(shù),而且匹配空間、數(shù)據(jù)空間維數(shù)不相同,因此,3D-2D定位要比3D-3D難得多。 16.8 神經(jīng)元網(wǎng)絡 神經(jīng)元網(wǎng)絡方法已經(jīng)用于物體識別任務。神經(jīng)元網(wǎng)絡可以實現(xiàn)物體的分類方法。其吸引力就在于使用類別的非線性邊界來劃分類別特征空間的能力。這些非線性邊界可以通過網(wǎng)絡的訓練來得到。在訓練階段,需要示意許多待識別物體的許多情況。如果訓練集在識別階段得到仔細選擇,以便將以后碰到的所有的情況都表示出來,然后,網(wǎng)絡在特征
57、空間對分類邊界進行學習。在識別階段,網(wǎng)絡同其它分類器就完全一樣了。 神經(jīng)網(wǎng)絡最有吸引力的特點是使用非線性邊界的能力和學習的能力。最大的局限是無法引入關于應用領域的已知事實以及調(diào)試操作時的困難。 思考題 16.1 列出物體識別系統(tǒng)的主要組成模塊,并討論它們在識別任務中的作用。 16.2 什么是朝向圖?請闡述使用朝向圖識別物體識別的過程。 16.3 什么是特征空間?怎樣使用特征空間識別物體? 16.4 神經(jīng)網(wǎng)絡最吸引人的特點之一是它們的學習能力。它們學習的能力在物體識別中是如何使用的?哪種模型可用神經(jīng)網(wǎng)絡?你如何介紹你關于神經(jīng)網(wǎng)絡中的物體知識? 16.5 討論模板匹配。在哪種類型
58、的應用中你可用用模板匹配?模板匹配的主要局限是什么? 16.6 用三角面畫一個4面體的面圖。 16.7 模板g和圖像f,如下圖所示,用歸一化的相關方法匹配,求: (1) 相關數(shù) (2) (3) 歸一化相關數(shù)M[i,j] 計算機練習題 16.1 利用一個物體識別系統(tǒng)從其部分視圖中識別物體。圖像中的物體是來自于一個大約10個物體的組,其中物體??梢栽谵k公室場景中找到。只選擇差不多是二維的物體(硬幣、鑰匙、墊子、商業(yè)卡片等)。考慮把攝像機放在桌子上8英尺高的地方。用多個隨意的圖像,其中這些物體以不同方式出現(xiàn),來測試你的系統(tǒng)。 16.2 繼續(xù)上面的例子,如今考慮三維的物體(如鼠標,訂書機等)重新設計和重新使用原型物體識別系統(tǒng)。本系統(tǒng)應能從其部分視圖中識別三維物體。 16.3假設在你的模型庫中有大量的物體。重新設計你的系統(tǒng)以有效地完成大量物體的識別任務。 專心---專注---專業(yè)
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。