模式識(shí)別_第二章_聚類分析PPT課件

上傳人：青****

文檔編號(hào)：4107790

上傳時(shí)間：2019-12-31

格式：PPT

頁數(shù)：77

大?。?.08MB

《模式識(shí)別_第二章_聚類分析PPT課件》由會(huì)員分享，可在線閱讀，更多相關(guān)《模式識(shí)別_第二章_聚類分析PPT課件（77頁珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

第二章聚類分析第二章聚類分析 2 1距離聚類的相關(guān)概念2 2模式相似性的測(cè)度和聚類準(zhǔn)則2 3基于距離閾值的聚類算法2 4層次聚類法2 5動(dòng)態(tài)聚類法2 6聚類結(jié)果的評(píng)價(jià) 2 1距離聚類的相關(guān)概念定義對(duì)一批沒有標(biāo)出類別的模式樣本集按照樣本之間的相似程度分類相似的歸為一類不相似的歸為另一類這種分類稱為聚類分析也稱為無監(jiān)督分類 2 1距離聚類的相關(guān)概念模式相似分類的依據(jù) 相似性的含義把整個(gè)模式樣本集的特征向量看成是分布在特征空間中的一些點(diǎn) 點(diǎn)與點(diǎn)之間的距離即可作為模式相似性的測(cè)量依據(jù) 聚類分析是按不同對(duì)象之間的差異根據(jù)距離函數(shù)的規(guī)律大小進(jìn)行模式分類的 2 1距離聚類的相關(guān)概念聚類分析的有效性聚類分析方法是否有效與模式特征向量的分布形式有很大關(guān)系若向量點(diǎn)的分布是一群一群的同一群樣本密集距離很近不同群樣本距離很遠(yuǎn) 則很容易聚類若樣本集的向量分布聚成一團(tuán) 不同群的樣本混在一起則很難分類對(duì)具體對(duì)象做聚類分析的關(guān)鍵是選取合適的特征特征選取得好向量分布容易區(qū)分選取得不好向量分布很難分開 2 1距離聚類的相關(guān)概念兩類模式分類的實(shí)例一攤黑白圍棋子選顏色作為特征進(jìn)行分類用 1 代表白 0 代表黑則很容易分類選大小作為特征進(jìn)行分類則白子和黑子的特征相同不能分類把白子和黑子分開 2 1距離聚類的相關(guān)概念特征選擇的維數(shù)在特征選擇中往往會(huì)選擇一些多余的特征它增加了維數(shù) 從而增加了聚類分析的復(fù)雜度但對(duì)模式分類卻沒有提供多少有用的信息在這種情況下需要去掉相關(guān)程度過高的特征進(jìn)行降維處理降維方法如果第i維特征與第j維特征所反映的特征規(guī)律接近因此可以略去其中的一個(gè)特征或?qū)⑺鼈兒喜橐粋€(gè)特征從而使維數(shù)降低一維 2 1距離聚類的相關(guān)概念模式對(duì)象特征測(cè)量的數(shù)字化計(jì)算機(jī)只能處理離散的數(shù)值因此根據(jù)識(shí)別對(duì)象的不同要進(jìn)行不同的數(shù)據(jù)化處理連續(xù)量的量化用連續(xù)量來度量的特性如長(zhǎng)度重量面積等等僅需取其量化值量級(jí)的數(shù)量化度量時(shí)不需要詳盡的數(shù)值而是相應(yīng)地劃分成一些有次序的量化等級(jí)的值名義尺度指定性的指標(biāo) 即特征度量時(shí)沒有數(shù)量關(guān)系也沒有明顯的次序關(guān)系如黑色和白色的關(guān)系男性和女性的關(guān)系等都可將它們分別用 0 和 1 來表示超過2個(gè)狀態(tài)時(shí) 可用多個(gè)數(shù)值表示 2 2模式相似性的測(cè)度和聚類準(zhǔn)則 2 2 1相似性測(cè)度目的為了能將模式集劃分成不同的類別必須定義一種相似性的測(cè)度來度量同一類樣本間的類似性和不屬于同一類樣本間的差異性復(fù)習(xí) 已知向量則 2 2模式相似性的測(cè)度和聚類準(zhǔn)則 2 2 1相似性測(cè)度歐氏距離量綱對(duì)分類的影響下頁圖例馬氏距離特點(diǎn) 排除了模式樣本之間的相關(guān)性問題協(xié)方差矩陣在實(shí)際應(yīng)用中難以計(jì)算明氏距離漢明距離角度相似性函數(shù)Tanimoto測(cè)度當(dāng)特征的取值僅為0 1兩個(gè)值的特例特點(diǎn) 反映了幾何上相似形的特征對(duì)于坐標(biāo)系的旋轉(zhuǎn) 放大和縮小等變化是不變的 1 歐氏距離 Euclid 歐幾里德簡(jiǎn)稱距離設(shè)X1 X2為兩個(gè)n維模式樣本注意 1 各特征向量對(duì)應(yīng)的維上應(yīng)當(dāng)是相同的物理量注意物理量的單位 D Distance 距離越小越相似歐氏距離定義為某些維上物理量采用的單位發(fā)生變化會(huì)導(dǎo)致對(duì)同樣的點(diǎn)集出現(xiàn)不同聚類結(jié)果的現(xiàn)象量綱對(duì)分類的影響圖例 2 解決方法使特征數(shù)據(jù)標(biāo)準(zhǔn)化使其與變量的單位無關(guān) 對(duì)n維向量 2 馬氏距離 Maharanobis 平方表達(dá)式式中 X 模式向量 M 均值向量 C 該類模式總體的協(xié)方差矩陣 M Mean C covariance 表示的概念是各分量上模式樣本到均值的距離也就是在各維上模式的分散情況越大離均值越遠(yuǎn) 優(yōu)點(diǎn) 排除了模式樣本之間的相關(guān)影響當(dāng)C I時(shí) 馬氏距離為歐氏距離當(dāng)m 2時(shí) 明氏距離為歐氏距離 n維模式樣本向量Xi Xj間的明氏距離表示為式中 xik xjk分別表示Xi和Xj的第k個(gè)分量歐氏 3 明氏距離 Minkowaki 當(dāng)k 2時(shí) 圖示 4 漢明 Hamming 距離設(shè)Xi Xj為n維二值 1或 1 模式樣本向量則兩個(gè)模式向量的各分量取值均不同 Dh Xi Xj n 全相同 Dh Xi Xj 0 式中 xik xjk分別表示Xi和Xj的第k個(gè)分量漢明距離 5 角度相似性函數(shù) 是模式向量Xi Xj之間夾角的余弦 6 Tanimoto測(cè)度用于0 1二值特征的情況相似性測(cè)度函數(shù)的共同點(diǎn)都涉及到把兩個(gè)相比較的向量Xi Xj的分量值組合起來但怎樣組合并無普遍有效的方法對(duì)具體的模式分類需視情況作適當(dāng)選擇 2 2模式相似性的測(cè)度和聚類準(zhǔn)則 2 2 2聚類準(zhǔn)則有了模式的相似性測(cè)度還需要一種基于數(shù)值的聚類準(zhǔn)則能將相似的模式樣本分在同一類相異的模式樣本分在不同的類試探方法閾值準(zhǔn)則聚類準(zhǔn)則函數(shù)法 2 2模式相似性的測(cè)度和聚類準(zhǔn)則 2 2 2聚類準(zhǔn)則試探方法閾值準(zhǔn)則憑直觀感覺或經(jīng)驗(yàn) 針對(duì)實(shí)際問題定義一種相似性測(cè)度的閾值然后按最近鄰規(guī)則指定某些模式樣本屬于某一個(gè)聚類類別例如對(duì)歐氏距離它反映了樣本間的近鄰性但將一個(gè)樣本分到不同類別中的哪一個(gè)時(shí) 還必須規(guī)定一個(gè)距離測(cè)度的閾值作為聚類的判別準(zhǔn)則 2 2模式相似性的測(cè)度和聚類準(zhǔn)則 2 2 2聚類準(zhǔn)則聚類準(zhǔn)則函數(shù)法依據(jù) 由于聚類是將樣本進(jìn)行分類以使類別間可分離性為最大因此聚類準(zhǔn)則應(yīng)是反映類別間相似性或分離性的函數(shù) 由于類別是由一個(gè)個(gè)樣本組成的因此一般來說類別的可分離性和樣本的可分離性是直接相關(guān)的可以定義聚類準(zhǔn)則函數(shù)為模式樣本集 x 和模式類別 Sj j 1 2 c 的函數(shù) 從而使聚類分析轉(zhuǎn)化為尋找準(zhǔn)則函數(shù)極值的最優(yōu)化問題 2 2模式相似性的測(cè)度和聚類準(zhǔn)則 2 2 2聚類準(zhǔn)則聚類準(zhǔn)則函數(shù)法一種聚類準(zhǔn)則函數(shù)J的定義J代表了屬于c個(gè)聚類類別的全部模式樣本與其相應(yīng)類別模式均值之間的誤差平方和對(duì)于不同的聚類形式 J值是不同的目的求取使J值達(dá)到最小的聚類形式適用范圍適用于各類樣本密集且數(shù)目相差不多而不同類間的樣本又明顯分開的情況聚類準(zhǔn)則函數(shù) 式中 c為聚類類別的數(shù)目為中樣本數(shù)目 J代表了分屬于c個(gè)聚類類別的全部模式樣本與其相應(yīng)類別模式均值之間的誤差平方和例1 類內(nèi)誤差平方和很小類間距離很遠(yuǎn) 可得到最好的結(jié)果類長(zhǎng)軸兩端距離中心很遠(yuǎn) J值較大結(jié)果不易令人滿意錯(cuò)誤分類例2 另一種情況有時(shí)可能把樣本數(shù)目多的一類分拆為二造成錯(cuò)誤聚類原因這樣分開 J值會(huì)更小正確分類 2 3基于距離閾值的聚類算法 2 3 1近鄰聚類法按最近鄰規(guī)則的簡(jiǎn)單試探法算法討論這種方法的優(yōu)點(diǎn) 計(jì)算簡(jiǎn)單若模式樣本的集合分布的先驗(yàn)知識(shí)已知則可通過選取正確的閾值和起始點(diǎn) 以及確定樣本的選取次序等獲得較好的聚類結(jié)果 1 問題有N個(gè)待分類的模式要求按距離閾值T分類到以為聚類中心的模式類中 2 算法描述任取樣本Xi作為第一個(gè)聚類中心的初始值如令Z1 X1 計(jì)算樣本X2到Z1的歐氏距離若定義一新的聚類中心Z2 X2 否則X2 以Z1為中心的聚類 T threshold 2 3 1近鄰聚類法 3 算法特點(diǎn) 2 優(yōu)點(diǎn) 計(jì)算簡(jiǎn)單一種雖粗糙但快速的方法 1 局限性很大程度上依賴于第一個(gè)聚類中心的位置選擇待分類模式樣本的排列次序距離閾值T的大小以及樣本分布的幾何性質(zhì)等 2 3基于距離閾值的聚類算法 2 3 1按最近鄰規(guī)則的簡(jiǎn)單試探法近鄰聚類法討論續(xù) 在實(shí)際中對(duì)于高維模式樣本很難獲得準(zhǔn)確的先驗(yàn)知識(shí) 因此只能選用不同的閾值和起始點(diǎn)來試探所以這種方法在很大程度上依賴于以下因素第一個(gè)聚類中心的位置待分類模式樣本的排列次序距離閾值T的大小樣本分布的幾何性質(zhì) 2 3基于距離閾值的聚類算法 2 3 1按最近鄰規(guī)則的簡(jiǎn)單試探法近鄰聚類法討論續(xù) 距離閾值T對(duì)聚類結(jié)果的影響 2 3基于距離閾值的聚類算法 2 3 2最大最小距離算法基本思想以試探類間歐氏距離為最大作為預(yù)選出聚類中心的條件 2 3基于距離閾值的聚類算法 2 3 2最大最小距離算法小中取大距離算法 1 問題已知N個(gè)待分類的模式分類到聚類中心對(duì)應(yīng)的類別中 2 算法描述選任意一模式樣本做為第一聚類中心Z1 選擇離Z1距離最遠(yuǎn)的樣本作為第二聚類中心Z2 逐個(gè)計(jì)算各模式樣本與已確定的所有聚類中心之間的距離并選出其中的最小距離例當(dāng)聚類中心數(shù)k 2時(shí) 計(jì)算將樣本按最近距離劃分到相應(yīng)聚類中心對(duì)應(yīng)的類別中重復(fù)步驟直到?jīng)]有新的聚類中心出現(xiàn)為止在所有最小距離中選出最大距離如該最大值達(dá)到的一定分?jǐn)?shù)比值閾值T 以上則相應(yīng)的樣本點(diǎn)取為新的聚類中心返回否則尋找聚類中心的工作結(jié)束為使聚類中心更有代表性可取各類的樣本均值作為聚類中心例k 2時(shí) 思路總結(jié) 先找中心后分類關(guān)鍵怎樣開新類聚類中心如何定例2 1對(duì)圖示模式樣本用最大最小距離算法進(jìn)行聚類分析選Z1 X1 距Z1最遠(yuǎn) 選為Z2 計(jì)算T 對(duì)應(yīng)最小距離中的最大值且 T 選作Z3 結(jié)果 Z1 X1 Z2 X6 Z3 X7 用全體模式對(duì)三個(gè)聚類中心計(jì)算最小距離中的最大值無 T情況停止尋找中心聚類 2 4層次聚類法 HierarchicalClusteringMethod 系統(tǒng)聚類法分級(jí)聚類法基本思想每個(gè)樣本先自成一類將模式樣本按距離準(zhǔn)則逐步分類類別由多到少直到獲得合適的分類要求為止算法 2 4層次聚類法 HierarchicalClusteringMethod 系統(tǒng)聚類法分級(jí)聚類法 1 算法描述 1 N個(gè)初始模式樣本自成一類即建立N類計(jì)算各類之間即各樣本間的距離得一N N維距離矩陣D 0 0 表示初始狀態(tài) G Group 2 假設(shè)已求得距離矩陣D n n為逐次聚類合并的次數(shù) 找出D n 中的最小元素將其對(duì)應(yīng)的兩類合并為一類由此建立新的分類 3 計(jì)算合并后新類別之間的距離得D n 1 4 跳至第2步重復(fù)計(jì)算及合并結(jié)束條件 1 取距離閾值T 當(dāng)D n 的最小分量超過給定值T時(shí) 算法停止所得即為聚類結(jié)果 2 或不設(shè)閾值T 一直將全部樣本聚成一類為止輸出聚類的分級(jí)樹 2 4層次聚類法類間距離計(jì)算準(zhǔn)則距離準(zhǔn)則函數(shù)進(jìn)行聚類合并的一個(gè)關(guān)鍵就是每次迭代中形成的聚類之間以及它們和樣本之間距離的計(jì)算采用不同的距離函數(shù)會(huì)得到不同的計(jì)算結(jié)果主要的距離計(jì)算準(zhǔn)則最短距離法最長(zhǎng)距離法中間距離法重心法類平均距離法 2 問題討論類間距離計(jì)算準(zhǔn)則 1 最短距離法如H K是兩個(gè)聚類則兩類間的最短距離定義為 H類中的某個(gè)樣本XH和K類中的某個(gè)樣本XK之間的歐氏距離 DHK H類中所有樣本與K類中所有樣本之間的最小距離如果K類由I和J兩類合并而成則得到遞推公式 2 最長(zhǎng)距離法若K類由I J兩類合并而成則有 3 中間距離法介于最長(zhǎng)與最短的距離之間如果K類由I類和J類合并而成則H和K類之間的距離為 4 重心法將每類中包含的樣本數(shù)考慮進(jìn)去若I類中有nI個(gè)樣本 J類中有nJ個(gè)樣本則類與類之間的距離遞推式為定義類間距離的方法不同分類結(jié)果會(huì)不太一致實(shí)際問題中常用幾種不同的方法比較分類結(jié)果從而選擇一個(gè)比較切合實(shí)際的分類 5 類平均距離法 H類任一樣本Xi和K類任一樣本Xj之間的歐氏距離平方若K類由I類和J類合并產(chǎn)生則遞推式為 2 4層次聚類法舉例設(shè)有6個(gè)五維模式樣本如下按最小距離準(zhǔn)則進(jìn)行聚類分析 x1 0 3 1 2 0 x2 1 3 0 1 0 x3 3 3 0 0 1x4 1 1 0 2 0 x5 3 2 1 2 1x6 4 1 1 1 0 計(jì)算各類間歐氏距離解 1 將每一樣本看作單獨(dú)一類得 2 將最小距離對(duì)應(yīng)的類和合并為1類得新的分類計(jì)算聚類后的距離矩陣D 1 由D 0 遞推出D 1 得距離矩陣D 0 3 將D 1 中最小值對(duì)應(yīng)的類合為一類得D 2 4 將D 2 中最小值對(duì)應(yīng)的類合為一類得D 3 若給定的閾值為 D 3 中的最小元素聚類結(jié)束若無閾值繼續(xù)分下去最終全部樣本歸為一類可給出聚類過程的樹狀表示圖層次聚類法的樹狀表示類間距離閾值增大分類變粗 2 5動(dòng)態(tài)聚類法基本思想首先選擇若干個(gè)樣本點(diǎn)作為聚類中心再按某種聚類準(zhǔn)則通常采用最小距離準(zhǔn)則使樣本點(diǎn)向各中心聚集從而得到初始聚類然后判斷初始分類是否合理若不合理則修改分類如此反復(fù)進(jìn)行修改聚類的迭代算法直至合理為止 K 均值算法或C 均值算法 ISODATA算法迭代自組織數(shù)據(jù)分析算法 2 5 1K 均值算法思想基于使聚類準(zhǔn)則函數(shù)最小化聚類準(zhǔn)則函數(shù) 聚類集中每一個(gè)樣本點(diǎn)到該類中心的距離平方之和算法 K 均值算法的聚類準(zhǔn)則聚類中心的選擇應(yīng)使準(zhǔn)則函數(shù)J極小即使Jj的值極小 2 5 1K 均值算法對(duì)于第j個(gè)聚類集準(zhǔn)則函數(shù)定義為 Sj 第j個(gè)聚類集域聚類中心為Zj Nj 第j個(gè)聚類集Sj中所包含的樣本個(gè)數(shù) 對(duì)所有K個(gè)模式類有應(yīng)有即可解得上式表明 Sj類的聚類中心應(yīng)選為該類樣本的均值 1 算法描述括號(hào)內(nèi)序號(hào) 迭代運(yùn)算的次序號(hào) 1 任選K個(gè)初始聚類中心 Z1 1 Z2 1 ZK 1 2 按最小距離原則將其余樣品分配到K個(gè)聚類中心中的某一個(gè) 即注意 k 迭代運(yùn)算次序號(hào) K 聚類中心的個(gè)數(shù) Nj 第j類的樣本數(shù) 3 計(jì)算各個(gè)聚類中心的新向量值 4 如果則回到 2 將模式樣本逐個(gè)重新分類重復(fù)迭代計(jì)算這里分別計(jì)算K個(gè)聚類中的樣本均值向量故稱K 均值算法算法收斂計(jì)算完畢如果聚類過程中聚類中心位置或個(gè)數(shù)發(fā)生變化 2 算法討論結(jié)果受到所選聚類中心的個(gè)數(shù)和其初始位置以及模式樣本的幾何性質(zhì)及讀入次序等的影響實(shí)際應(yīng)用中需要試探不同的K值和選擇不同的聚類中心起始值例2 3 已知20個(gè)模式樣本如下試用K 均值算法分類解取K 2 并選計(jì)算距離聚類可得到計(jì)算新的聚類中從新的聚類中心得有計(jì)算聚類中心返回第步以Z1 3 Z2 3 為中心進(jìn)行聚類以新的聚類中心分類求得的分類結(jié)果與前一次迭代結(jié)果相同計(jì)算新聚類中心向量值聚類中心與前一次結(jié)果相同即故算法收斂得聚類中心為結(jié)果圖示圖2 10K 均值算法聚類結(jié)果 2 5 1K 均值算法 2 算法討論K 均值算法的結(jié)果受如下選擇的影響所選聚類的數(shù)目聚類中心的初始分布模式樣本的幾何性質(zhì)讀入次序在實(shí)際應(yīng)用中需要試探不同的K值和選擇不同的聚類中心的起始值如果模式樣本可以形成若干個(gè)相距較遠(yuǎn)的孤立的區(qū)域分布一般都能得到較好的收斂效果 K 均值算法比較適合于分類數(shù)目已知的情況上述K 均值算法其類型數(shù)目假定已知為K個(gè) 當(dāng)K未知時(shí) 可以令K逐漸增加此時(shí)Jj會(huì)單調(diào)減少最初減小速度快但當(dāng)K增加到一定數(shù)值時(shí) 減小速度會(huì)減慢直到K 總樣本數(shù)N時(shí) Jj 0 Jj K關(guān)系曲線如下圖 3 聚類準(zhǔn)則函數(shù)Jj與K的關(guān)系曲線曲線的拐點(diǎn)A對(duì)應(yīng)著接近最優(yōu)的K值 J值減小量計(jì)算量以及分類效果的權(quán)衡并非所有的情況都容易找到關(guān)系曲線的拐點(diǎn) 迭代自組織的數(shù)據(jù)分析算法可以確定模式類的個(gè)數(shù)K 2 5 2ISODATA算法與K 均值算法的比較K 均值算法通常適合于分類數(shù)目已知的聚類而ISODATA算法則更加靈活從算法角度看 ISODATA算法與K 均值算法相似聚類中心都是通過樣本均值的迭代運(yùn)算來決定的 ISODATA算法加入了一些試探步驟并且可以結(jié)合成人機(jī)交互的結(jié)構(gòu) 使其能利用中間結(jié)果所取得的經(jīng)驗(yàn)更好地進(jìn)行分類 2 5 2ISODATA算法基本思路 1 選擇某些初始值可選不同的參數(shù)指標(biāo) 也可在迭代過程中人為修改以將N個(gè)模式樣本按指標(biāo)分配到各個(gè)聚類中心中去 2 計(jì)算各類中諸樣本的距離指標(biāo)函數(shù) 按最近鄰規(guī)則進(jìn)行分類 3 5 按給定的要求將前一次獲得的聚類集進(jìn)行分裂和合并處理 4 為分裂處理 5 為合并處理從而獲得新的聚類中心 6 重新進(jìn)行迭代運(yùn)算計(jì)算各項(xiàng)指標(biāo) 判斷聚類結(jié)果是否符合要求經(jīng)過多次迭代后若結(jié)果收斂則運(yùn)算結(jié)束算法特點(diǎn)加入了試探性步驟組成人機(jī)交互的結(jié)構(gòu) 可以通過類的自動(dòng)合并與分裂得到較合理的類別數(shù) 算法共分十四步第一六步預(yù)選參數(shù) 進(jìn)行初始分類為合并和分裂準(zhǔn)備必要的數(shù)據(jù) 第七步決定下一步是進(jìn)行合并還是進(jìn)行分裂第八十步分裂算法第十一十三步合并算法第十四步決定算法是否結(jié)束算法描述設(shè)有N個(gè)模式樣本X1 X2 XN 預(yù)選參數(shù) 進(jìn)行初始分類第一步預(yù)選NC個(gè)聚類中心 NC也是聚類過程中實(shí)際的聚類中心個(gè)數(shù) 預(yù)選指標(biāo) K 希望的聚類中心的數(shù)目 N 每個(gè)聚類中應(yīng)具有的最少樣本數(shù) 若樣本少于 N 則該類不能作為一個(gè)獨(dú)立的聚類應(yīng)刪去 S 一個(gè)聚類域中樣本距離分布的標(biāo)準(zhǔn)差閾值標(biāo)準(zhǔn)差向量的每一分量反映樣本在特征空間的相應(yīng)維上與聚類中心的位置偏差分散程度要求每一聚類內(nèi) 其所有分量中的最大分量應(yīng)小于 S 否則該類將被分裂為兩類 C 兩聚類中心之間的最小距離若兩類中心之間距離小于 C 則合并為一類 L 在一次迭代中允許合并的聚類中心的最大對(duì)數(shù) I 允許迭代的次數(shù) 第二步把N個(gè)樣本按最近鄰規(guī)則分配到NC個(gè)聚類中若則第三步若Sj中的樣本數(shù)Nj N 則取消該類并且NC減去1 第四步修正各聚類中心值第五步計(jì)算Sj類的類內(nèi)平均距離第六步計(jì)算總體平均距離即全部樣本到各自聚類中心距離的平均距離 3 如果迭代的次數(shù)是偶數(shù) 或NC 2K 即聚類中心數(shù)目大于或等于希望數(shù)的兩倍則跳到第十一步合并否則進(jìn)入第八步分裂第七步判決是進(jìn)行分裂還是進(jìn)行合并決定迭代步驟等判斷分裂還是合并 1 如迭代已達(dá)I次最后一次置 C 0 跳到第十一步合并 2 若NC K 2 即聚類中心小于或等于希望數(shù)的一半進(jìn)入第八步分裂 C 兩聚類中心之間的最小距離 NC 預(yù)選的聚類中心數(shù) I 允許迭代的次數(shù) K 希望的聚類中心的數(shù)目分裂處理第八步計(jì)算每個(gè)聚類中樣本距離的標(biāo)準(zhǔn)差向量對(duì)第Sj類有分量是聚類數(shù) 是維數(shù) 特征個(gè)數(shù) 第九步求每個(gè)標(biāo)準(zhǔn)差向量的最大分量 j的最大分量記為 jmax j 1 2 NC 第十步在最大分量集中如有 1 和即類內(nèi)平均距離大于總體平均距離并且Sj類中樣本數(shù)很大說明Sj類樣本在對(duì)應(yīng)方向上的標(biāo)準(zhǔn)差大于允許的值此時(shí) 又滿足以下兩個(gè)條件之一 2 即聚類數(shù)小于或等于希望數(shù)目的一半則將Zj分裂成兩個(gè)新的聚類中心和并且NC加1 其中 N 每個(gè)聚類中應(yīng)具有的最少樣本數(shù) S 聚類域中樣本距離分布的標(biāo)準(zhǔn)差閾值分裂系數(shù) 若完成了分裂運(yùn)算迭代次數(shù)加1 跳回第二步否則繼續(xù) 按鄰近規(guī)則聚類合并處理第十一步計(jì)算所有聚類中心之間的距離 Si類和Sj類中心間的距離為第十二步比較所有Dij與 C的值將小于 C的Dij按升序排列第十三步如果將距離為的兩類合并得到新的聚類中心為 C 兩聚類中心之間的最小距離每合并一對(duì) NC減1 判斷結(jié)束第十四步若是最后一次運(yùn)算迭代次數(shù)為I 算法結(jié)束否則有兩種情況 1 需要由操作者修改輸入?yún)?shù)時(shí) 試探性步驟跳到第一步 2 輸入?yún)?shù)不需改變時(shí) 跳到第二步按鄰近規(guī)則聚類此時(shí) 選擇兩者之一迭代次數(shù)加1 然后繼續(xù)進(jìn)行運(yùn)算 2 5 2ISODATA算法例2 4 舉例對(duì)如圖模式樣本用ISODATA算法進(jìn)行分類 1 評(píng)價(jià)的重要性 1 對(duì)高維特征向量樣本不能直觀看清聚類效果時(shí) 2 人機(jī)交互系統(tǒng)中需要迅速地判斷中間結(jié)果及時(shí)指導(dǎo)輸入?yún)?shù)的改變較快地獲得較好的聚類結(jié)果 2 6聚類結(jié)果的評(píng)價(jià) 2 6聚類結(jié)果的評(píng)價(jià) 2 迅速評(píng)價(jià)聚類結(jié)果在上述迭代運(yùn)算中是很重要的特別是具有高維特征向量的模式不能直接看清聚類效果因此可考慮用以下幾個(gè)指標(biāo)來評(píng)價(jià)聚類效果聚類中心之間的距離距離值大通?？煽紤]分為不同類聚類域中的樣本數(shù)目樣本數(shù)目少且聚類中心距離遠(yuǎn) 可考慮是否為噪聲聚類域內(nèi)樣本的距離方差方差過大的樣本可考慮是否屬于這一類討論模式聚類目前還沒有一種通用的放之四海而皆準(zhǔn)的準(zhǔn)則往往需要根據(jù)實(shí)際應(yīng)用來選擇合適的方法結(jié)束同學(xué)們來學(xué)校和回家的路上要注意安全同學(xué)們來學(xué)校和回家的路上要注意安全

下載提示(請(qǐng)認(rèn)真閱讀)

1.請(qǐng)仔細(xì)閱讀文檔，確保文檔完整性，對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
2.下載的文檔，不會(huì)出現(xiàn)我們的網(wǎng)址水印。
3、該文檔所得收入（下載+內(nèi)容+預(yù)覽）歸上傳者、原創(chuàng)作者；如果您是本文檔原作者，請(qǐng)點(diǎn)此認(rèn)領(lǐng)！既往收益都?xì)w您。

同意并開始全文預(yù)覽

文檔包含非法信息？點(diǎn)此舉報(bào)后獲取現(xiàn)金獎(jiǎng)勵(lì)！

文檔加載中……請(qǐng)稍候！
如果長(zhǎng)時(shí)間未打開，您也可以點(diǎn)擊刷新試試。

下載文檔到電腦，查找使用更方便

30 積分

還剩頁未讀，繼續(xù)閱讀

舉報(bào)

版權(quán)申訴 word格式文檔無特別注明外均可編輯修改；預(yù)覽文檔經(jīng)過壓縮，下載后原文更清晰！ 立即下載

配套講稿：: 如PPT文件的首頁顯示word圖標(biāo)，表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
特殊限制：: 部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片，僅作為作品整體效果示例展示，禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
關(guān) 鍵詞：: 模式識(shí)別第二聚類分析 PPT 課件

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶自行上傳分享，僅供網(wǎng)友學(xué)習(xí)交流，未經(jīng)上傳用戶書面授權(quán)，請(qǐng)勿作他用。

關(guān)于本文

本文標(biāo)題：模式識(shí)別_第二章_聚類分析PPT課件
鏈接地址：http://www.3dchina-expo.com/p-4107790.html

相關(guān)資源更多

正為您匹配相似的精品文檔

相關(guān)搜索

模式識(shí)別 第二 聚類分析 PPT 課件

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號(hào):蜀ICP備2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺(tái)，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)，我們立即給予刪除！

欧美精品一二区,性欧美一级,国产免费一区成人漫画,草久久久久,欧美性猛交ⅹxxx乱大交免费,欧美精品另类,香蕉视频免费播放

模式識(shí)別_第二章_聚類分析PPT課件

最新文檔