美章網 資料文庫 支持向量機空間聚類研究范文

    支持向量機空間聚類研究范文

    本站小編為你精心準備了支持向量機空間聚類研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

    支持向量機空間聚類研究

    《地理與地理信息科學雜志》2014年第四期

    1方法原理簡介

    1.1空間自相關傳統的統計學方法建立在樣本獨立與大樣本假設的基礎上,由于空間數據的特殊性,其獨立性和大樣本假設常得不到滿足。空間統計學中的空間自相關技術很好地解決了經典統計方法在空間數據應用上的缺陷。空間自相關性使用全局和局部兩種指標來度量,全局指標用于探測整個研究區域的空間模式,用單一的值反映該區域的自相關程度;局部指標計算每個空間單元與鄰近單元某一屬性的相關程度。由于全局指標有時會掩蓋局部狀態的不穩定性,因此在很多場合需要采用局部指標來探測空間自相關。常用的計算空間自相關的方法有Moran′sI、Geary′sC、Getis、JoinCount等,本文基于Moran′I研究四川經濟發展的空間格局。Moran′I分為全局Moran指數[14,15]和局部Moran指數[16]:全局Moran′sI從總體上反映了研究目標的空間相關性,局部Moran′sI描述區域單元與其相鄰區域單元之間的空間集聚程度。

    1.2支持向量機支持向量機在解決小樣本、非線性及高維模式識別中表現出如下特有的優勢:1)SVM避開了從歸納到演繹的傳統過程,實現了高效的從訓練樣本到預報樣本的“轉導推理”,大大簡化了通常的分類和回歸等問題;2)SVM是專門針對有限情況的,其目標是得到現有信息下的最優解而不僅是樣本數趨于無窮大時的最優值;3)計算的復雜性取決于支持向量(SupportVector,SV)的數目,而不是樣本空間的維數,這在某種意義上避免了“維數災難”;4)算法最終將轉化成為一個二次型尋優問題,從理論上而言,得到的結果將是全局最優解,解決了在神經網絡方法中無法避免的局部極值問題,因而它具有很好的泛化性能和預測能力[22]。從本質上看,SVM是一種監督分類方法,在對數據進行分類時,必須要有一個已知樣本集訓練SVM。在SVM的訓練樣本選擇策略中,有隨機選樣策略、盒子類凸包樣本選擇方法[23]、Adaboost方法[24],也可以通過PCA或者NLM算法的分類結果選擇典型樣本。

    1.3基于Moran的樣本集選擇通常,經濟統計數據不包含已知正確分類的樣本集,而基于不同選擇策略的SVM分類結果差異很大,因此,樣本選擇策略是采用SVM分析經濟統計數據的關鍵,其方法的正確與否直接影響到分析結果的正確性。在局部空間自相關中,滯后變量Wzi表示目標觀測值相鄰區域的加權平均對偏離平均值的度量,zi為對觀察值x偏離平均值的度量。以(Wz,z)為坐標點的Moran指數散點圖,常用來可視化研究局部空間不穩定性。Moran指數散點圖的4個象限,分別對應于區域單元與其鄰居之間4種類型的局部空間聯系形式:第一象限(H-H區)代表高觀測值的區域單元被同是高值的區域所包圍的空間聯系形式;第二象限(L-H區)代表低觀測值的區域單元被高值的區域所包圍的空間聯系形式;第三象限(L-L區)代表低觀測值的區域單元被同是低值的區域所包圍的空間聯系形式;第四象限(H-L區)代表高觀測值的區域單元被低值的區域所包圍的空間聯系形式。從區域經濟發展角度看,經濟發展中心對周邊存在很強的作用力,使得周邊區域經濟也發展良好,這對應于H-H類型;而經濟落后區域由于地形、交通等區域條件的限制具有較強的集聚特征,從而對應于L-L類型;經濟發達區域的邊緣地帶由于自然條件或者政策性等問題制約了發展,屬于L-H類型;而在欠發達地區,某些區縣旅游、礦產等資源優越,發展具有一定優勢,屬于H-L類型。這種多維經濟統計數據的局部空間分布模式,可以揭示經濟發達區域、較發達區域、欠發達區域及奇異點,并進一步提取經濟發展中心和典型區域。這些典型區域在一定程度上可作為已知典型樣本集訓練SVM分類過程,從而減少選樣過程的主觀性。由此可以建立空間自相關-SVM耦合的空間聚類方法,圖1顯示了基于Moran′sI的SVM聚類(Moran-SVM)的流程,其步驟為:1)運用空間自相關分析經濟統計數據的PCA和NLM降維結果,到Moran指數散點圖和空間自相關顯著性分析圖;2)通過研究象限分布圖和顯著性分析圖,提取高顯著經濟發達和不發達、較顯著經濟發達等各種不同發展類型的典型區域;3)將典型區域作為已知樣本集導入SVM模型,得到聚類結果。

    2應用實例

    2.1數據說明本文以2007年四川統計年鑒數據為例,對四川省區縣尺度的多維度經濟統計數據進行分析。在行政單元為區縣的經濟統計數據中,大量屬性維度的數據統計不完整。基于降維過程的維度應盡量最大化及其可獲得性考慮,本文選擇統計年鑒中最能反映地區經濟發展情況的18個屬性,分別是:國內生產值(第一、第二、工業、第三產業和人均生產總值)、民營經濟生產情況(第一、第二、工業、第三產業和人均民營經濟增加值)、從業情況(從業人員、職工人數、人均工資)、地方財政(財政收入和支出)、農林牧漁總產值、社會消費品零售總額、全社會固定資產投資。

    2.2基于Moran′sI的SVM聚類筆者利用空間自相關對PCA和NLM的降維結果進行分析,得出四川經濟統計數據的局部Moran′I散點圖及其顯著性分布圖(圖2-圖5),通過分析典型區域的局部空間聯系類型及其顯著性,提取出若干經濟發展情況明確且典型的區縣,作為已知小樣本集導入SVM中進行分類。對PCA降維結果進行局部Moran指數分析,得到象限分布圖(圖2):成都周邊-東南區域沿線、攀枝花處于第一象限,即屬于H-H類型;第一象限周邊區域受高觀測值鄰域影響,屬于第二象限,即L-H類型;廣大的西北區域、中南、多數東北和少數東南區縣屬于L-L類型,區縣本身和周邊鄰域的觀測值都較低;H-L類型主要集中在東北區域及第二象限周邊的區縣,絕大部分與L-L類型相鄰,表示其觀測值比較高,屬于經濟較發達地區。分析局部Moran指數的顯著性分布圖(圖3)可知:四川絕大部分區域屬于空間聚集不顯著類型,而成都周邊12個區縣的空間聚集非常明顯,其外圍的德陽市等3個區縣也具有顯著的空間相似性,宜賓市也表現出較為顯著的空間聚集效應;廣大經濟不發達的西北區域和南部攀枝花市則表現出離散的空間分布形式,這與現狀有一定差異。對NLM降維結果進行局部Moran指數分析,得到象限分布圖(圖4):東北區域-成都周邊-東南區域沿線屬于H-H情況;第一象限周邊區域受其影響,屬于L-H類型;廣大的西北區域、中南和少數東南區縣屬于L-L類型;H-L類型主要集中在成都周邊和南部區縣,與L-L類型相鄰,屬于經濟相對較發達地區。分析局部Moran指數的顯著性分布圖(圖5)可知:四川東北、中南和東南區域都屬于空間集聚不顯著類型,而成都周邊、廣大西北區域空間集聚非常顯著,較為顯著的區縣主要分布在顯著區域的周邊鄰域地區。基于PCA和NLM降維結果的Moran指數顯著性分類結果可知,成都周邊為高顯著H-H類型,西北地區為高顯著L-L類型,可分別采集到第一等級和第四等級的小樣本集;從兩者的Moran′sI象限分布圖可知,成都外圍和東北廣安市附近區縣屬于第一象限,經濟較周邊發達,而空間聚集效應又不顯著,可作為第二等級;在東北區縣和第四等級的交叉區域,存在部分相對高值區域,其較落后區域發達,可作為第三等級。依次每個等級采集3個樣本,導入SVM算法中,并采用RBF核函數[13],調節參數,結果如圖6。當γ取值較大(大于2)時,分類結果出現欠學習問題,有非H-H類型被劃入第一等級;而其他參數條件下的分類結果差異不大,將成都周邊、涪城區和攀枝花東區分為第一等級,將成都周圍其他區縣和東北少數區縣分為第二等級,將東北和東南其他區縣及南部分為第三等級,廣大的西部、北部和東南區縣則屬于第四等級,這與四川經濟發展現狀完全吻合。與NLM分類結果相比較,具有很強的相似性,這也說明了結果的正確性。

    2.3結果分析(1)采集于PCA和NLM的不同已知樣本集的SVM聚類結果之間差異大(表1)。在PCA-SVM中,第二等級區縣的數目非常少,而東北多數區縣被劃分至第四等級,并與PCA的分類結果相似,都未能準確展現四川經濟發展現狀;而NLM-SVM的結果與NLM類似,都能體現出經濟發展的核心區域及經濟較發達區域。由這兩者結果之間的較大差異可知,已知小樣本集選取的主觀性對結果影響很大,所以需要進一步考慮樣本集的合理選擇。(2)針對上述已知樣本集選取的主觀性問題,筆者利用PCA和NLM的空間自相關分析結果選取樣本集,證明該步驟不僅能大量減少樣本集的選擇范圍,而且分類結果能揭示出成都經濟發達地區、東北和東南經濟較發達區域、西北經濟極不發達區,能準確展現四川經濟發展現狀(表1)。SVM作為一種監督分類算法,需要已知樣本集對聚類過程進行訓練,由于經濟統計數據不具有已知類別樣本,需要利用一定的方法來選取,而選樣過程的主觀性對SVM的分類結果具有很大的影響,同時最優參數的獲取是一個復雜的區間搜索過程,不僅較難獲取最優參數,而且效率也較低。PCA和NLM降維結果的Moran指數分析結果能揭示出顯著的H-H和L-L類型,而Moran指數的象限分布能提取出空間集聚不顯著、但能揭示經濟發展情況的典型空間單元,從而得到不同經濟發展水平的典型區域,這些典型區域可作為小樣本集訓練SVM算法聚類過程。分類結果正確揭示了四川經濟發展現狀的空間格局,證明該方法能大大縮減樣本集的選取范圍,避免選樣過程的主觀性,并具有很好的分類效果,這為SVM已知樣本集的合理選取提供了新方法。

    3結論

    SVM具有很好的數學理論基礎,能避免“維數災難”,具有很好的泛化性能,且算法效率高,能夠最大化各類之間的距離,對具有已知樣本集的數據能很好地進行分析;但它是一種監督分類,在分析經濟統計數據過程中缺少已知樣本,需要利用選樣策略選取典型樣本,比如在PCA和NLM等算法的降維結果中選取不同類別的典型單元,但該過程主觀性較強,對聚類結果的準確性影響很大,為此筆者提出運用空間自相關分析數據的局部空間聚集模式及其顯著性指數,并基于局部Moran′I散點圖和顯著性分布圖提取不同類別的已知小樣本集,再訓練SVM聚類過程,以解決選樣過程中的主觀性和復雜性問題。本文論證了空間自相關不僅能大量減少特征樣本集的數目,同時能準確提取不同經濟發展水平的典型區域,這不僅簡化了SVM算法小樣本集選取過程,其聚類結果也能準確反映四川經濟發展實際情況。空間自相關和SVM耦合方法不僅能大量縮減選樣范圍和簡化選樣過程,從而提取出不同類別的典型樣本和解決樣本選擇的主觀性問題,同時也能基于SVM的優點準確揭示高維數據的內在聚類結構。

    作者:董承瑋芮小平鄧羽關興良李峰單位:北京市測繪設計研究院中國科學院大學資源與環境學院中國科學院地理科學與資源研究所全國市長研修學院防災科技學院

    主站蜘蛛池模板: 精品天海翼一区二区| 精品人体无码一区二区三区 | 国产在线精品观看一区| 日韩国产免费一区二区三区 | 男插女高潮一区二区| 国产精品区一区二区三在线播放| 亚洲日韩国产一区二区三区在线 | 国产午夜精品一区理论片飘花| 91福利国产在线观看一区二区| 精品国产一区二区三区久久蜜臀| 久久精品国产亚洲一区二区| 中文字幕乱码一区久久麻豆樱花 | 狠狠做深爱婷婷综合一区 | 亚洲视频在线一区| 人妻av综合天堂一区| 国产乱码精品一区二区三区中文 | 亚洲av乱码一区二区三区按摩| 久夜色精品国产一区二区三区| 亚洲视频在线一区二区三区| 亚洲一区精品伊人久久伊人| 亚洲精品色播一区二区| 无码人妻一区二区三区在线| 国产一区二区四区在线观看| 在线视频亚洲一区| 国产女人乱人伦精品一区二区| 91一区二区在线观看精品| 精品人妻无码一区二区三区蜜桃一| 少妇无码AV无码一区| 国产高清一区二区三区四区| 在线精品一区二区三区| 国产日韩一区二区三区| 亚洲AV综合色区无码一区爱AV| 精品国产一区二区二三区在线观看 | 无码少妇一区二区浪潮av| 97av麻豆蜜桃一区二区| 丰满岳妇乱一区二区三区| 日韩一区二区在线观看| 国产美女露脸口爆吞精一区二区| 日韩精品无码一区二区三区免费| 动漫精品一区二区三区3d| 亚洲.国产.欧美一区二区三区|