網站首頁 個人範例 行業範例 行政範例 職場範例 校園範例 書信範例 生活範例 節日文化範例

空間數據分析方法

欄目: 科普知識 / 發佈於: / 人氣:1.82W

導語:空間數據分析的方法有什麼呢?以下是小編為大家分享的空間數據分析方法,歡迎借鑑!

空間數據分析方法

空間數據分析

1. 空間分析:(spatial analysis,SA)是基於地理對性的位置和形態特徵的空間數據分析技術,其目的在於提取和傳輸空間信息,是地理信息系統的主要特徵,同時也是評價一個地理信息系統功能的主要指標之一,是各類綜合性地學分析模型的基礎,為人們建立複雜的空間應用模型提供了基本方法.

2. 空間分析研究對象:空間目標。空間目標基本特徵:空間位置、分佈、形態、空間關係(度量、方位、拓撲)等。

3. 空間分析根本目標:建立有效地空間數據模型來表達地理實體的時空特性,發展面向應用的時空分析模擬方法,以數字化方式動態的、全局的描述的地理實體和地理現象的空間分佈關係,從而反映地理實體的內在規律和變化趨勢。GIS空間分析實際是一種對GIS海量地球空間數據的增值操作。

4. ArcGIS9中主要的三種數據組織方式:shapefile,coverage和geodatabase。Shapefile由存儲空間數據的dBase表和存儲屬性數據和存儲空間數據與屬性數據關係的文件組成。Coverage的空間數據存儲在INFO表中,目標合併了二進制文件和INFO表,成為Coverage要素類。

5. Geodatabase是面向對象的數據模型,能夠表示要素的自然行為和要素之間的關係。

6. GIS空間分析的基本原理與方法:根據空間對象的不同特徵可以運用不同的空間分析方法,其核心是根據描述空間對象的空間數據分析其位置、屬性、運動變化規律以及周圍其他對象的相關制約,相互影響關係。方法主要有矢量數據的空間分析,柵格數據的空間分析,空間數據的量算與空間內插,三維空間分析,空間統計分析。

7. 柵格數據在數據處理與分析中通常使用線性代數的二維數字矩陣分析法作為數據分析的數學基礎。柵格數據的處理方法有:柵格數據的聚類、聚合分析,複合分析,追蹤分析,窗口分析。

8. 柵格數據的聚類與聚合分析區別:聚類是根據設定的聚類條件對原有的數據系統進行有選擇的信息提取兒建立的新的柵格數據系統的方法;聚合分析是根據空間分辨率和分類表進行數據類型的合併或轉換以實現空間地域的兼併。e.g.:從遙感圖像信息中提取某一地物的方法是柵格數據的聚類,而由數字高程模型轉換為數字高程分級模型便是空間數據的聚合。

9. ArcGIS9的空間分析功能主要包括:空間分析模塊、3D分析模塊、地統計分析模塊、網絡分析模塊、跟蹤分析模塊等。

的四種模型:要素模型(矢量類型),場模型(柵格類型),時態模型,網絡模型。

11.矢量數據的空間分析方法:空間關係查詢;疊置分析;緩衝區分析;泰森多邊形分析;網絡分析。

12.空間關係查詢中要素間的關係有:相鄰關係(proximity);包容關係(containment);疊加關係(overlap)。空間關係查詢涉及到的:目標層—從其中查詢滿足條件的要素。選擇層—比較此圖層中要素與目標層中的關係。選擇層是從目標層中得來的。

13.空間關係連接(spatial join)有:根據圖層間的關係連接屬性表;根據空間位置連接圖層屬性表。

14.疊置分析:是將代表不同主題的各個數據層面進行疊置產生一個新的數據層面,疊置的結果綜合了原來來年各個或多個層面要素所具有的屬性,不僅生成了新的空間關係,還將輸入的多個數據層的屬性聯繫起來產生了新的屬性關係。疊置分析前提條件:要素層面必須基於相同座標系統、同一地帶,還必須查驗疊加層面之間的基準面是否相同。

15.根據操作要素的不同,疊置分析可以分為:點與多邊形疊加;線與多邊形疊加;多邊形與多邊形疊加。

16.根據操作形式的不同,疊置分析可以分為:圖層擦除(erase);識別疊加(identity);交集操作(intersect);均勻差值(symmetrical difference);圖層合併(union);修正更新(update)。

17.從數學的空間運算角度來説,圖層擦除:A-A∩B(即X∈A且X ?B,A為輸入圖層,B為擦除層)。識別疊加:A or(A∩B)。交集操作:X∈A∩B(A、B分別是進行交集的圖層)。均勻差值:X∈(A∪B—A∩B)。圖層合併:X∈A∪B。修正更新:B or(A∪B)。

18.緩衝區分析基本思想:給定一個空間對象或幾何,確定它們的鄰域,鄰域的大小由鄰域半徑R決定。

19.緩衝區的建立方法:角平分線法,凸角圓弧法。緩衝區的建立包括:點狀要素的緩衝區,線狀要素的緩衝區,面狀要素的緩衝區(面狀要素緩衝區建立的四種方式:1. inside and outside內外緩衝區之和 outside 只有外緩衝區 inside 只有內緩衝區 de and include outside 外緩衝區和原有圖形之和)。

20.泰森多邊形:也稱為Voronoi圖或者Dirichlet圖。泰森多邊形可用於定性分析、統計分析、臨近分析等,是某些空間分析一個有用的工具。泰森多邊形的特性:每個泰森多邊形內僅含有一個離散點數據;泰森多邊形內的點到相應離散點的距離最近;位於泰森多邊形邊上的點到其兩邊的離散點的距離相等。可用於現有設施的負荷狀況分析、設施選址等問題的分析。

21.狄洛尼三角網:Delaunay Triangulation(D-TIN),是將泰森多邊形中各一直點相連形成的一個三角形網,該三角網是泰森多邊形的對偶圖,是模擬自然面或人工構成面的理想方法。狄洛尼三角網特性:1其Delaunay三角網是唯一的;2三角網的外邊界構成了點集P的凸多邊形外殼;3沒有任何點在三角形的外接圓內部;4如果將三角網中的每個三角形最小角進行升序排列,則Delaunay三角網的排列得到的數值最大,即Delaunay三角網是“最接近於規則化”的三角網(等邊三角形)。

22.狄洛尼三角網構建方法:三角網生長法。首先找出離散點集中相距最短的兩點,連線成為D-TIN的初始基線,然後在這附近找第三點,一般取第三點到前兩點的距離平方和最小的參考點作為候選點,以這三點作一外接圓,判斷是否有落入該外接圓的點,一直找到沒有其他參考點落入外接圓內,該三角形就是Delaunay三角形,然後以該三角形的任意一條邊作為基邊,用同樣的方法形成其他三角形,一直到所有參考點都參與構造了Delaunay三角網為止。

23.用Delaunay三角網構建泰森多邊形方法:1構建離散平面點集的D-TIN;2求取各三角形的外接圓心;3對每個離散點,按順時針或逆時針方向連接與其關聯的三角形的外接圓心,得到該離散點的泰森多邊形;4將各離散點的泰森多邊形形成集合,得到平面點集的泰森多邊形。

24.構成網絡的基本要素:鏈(link);結點(node)(包括:障礙-barrier,拐點-turn,中心-center,站點-stop)。以上網絡要素分別有各自的特殊屬性項,歸納為:阻力值(impedance),資源需求(demand),資源容量(capacity)三種。

25.網絡分析應用:路徑分析;連通分析;定位-配置分析;地址匹配。

26.路徑分析的核心是對最佳路徑和最短路徑的求解。最佳路徑的求解時在指定的網絡中兩節點間找一條阻礙強度最小的路徑,最佳路徑的產生基於網線和結點轉角的阻礙強度。另一種路徑分析功能是求解最佳遊歷方案,分為:結點最佳遊歷方案求解(推銷員問題);弧段最佳遊歷方案求解(郵遞員問題)。

27.最短路徑分析核心算法:Dijkstra算法。

28.連通分析兩類問題:1連通分量求解;2最少費用連通方案的求解。

29.連通圖:在一個圖中。任意兩個結點之間都存在一條路。

30.最小生成樹:若一個連通圖中不存在任何迴路,稱為樹,生成樹是極小連通子圖(權數最小)稱為最小生成樹。應用:類似在n個城市間建立通信線路的連通分析問題。構造最小生成樹的依據:1在網中選擇n-1條邊連接網的n個頂點;2儘可能選取權值為最小的邊。算法:Kruskal,克羅斯科爾算法(避圈法)。

31.定位-配置分析(舉例分析):1定位問題:已知需求點分佈,確定哪裏佈設供給點。如消防站點分佈、學校選址、垃圾收集站點分佈;2配置問題:已知供給點分佈,確定供給點服務於哪些需求點。如確定一消防站負責哪些區域的消防工作;3同時確定供給點和需求點。算法:Teitz-Bart算法(泰茨-巴特算法)。

32.e.g:選址問題就選擇5個城市中一個作為中心郵局地時選擇標準有中心點法和中位點法。中心點法是中心局到其它城市最短距離的最大值最小;中位點法是中心局到其它城市距離總和最小。

33.地址匹配:是基於空間定位技術,是地理編碼的核心技術,提供了一種把描述成地址的地理位置信息轉換成可以被用於GIS的地理座標的方式。

34.利用地址匹配技術可以在地理空間參考範圍中確定數據資源的位置,建立空間信息與非空間信息之間的聯繫,實現各種地址空間範圍內的信息整合。它的過程中涉及兩種數據:一種是隻包含地理實體位置信息沒有相關地圖定位信息的地址數據(如街道地址、郵政編碼、行政區劃等),另一種是已經包含了相關地圖定位信息的地理參考數據,這些數據集合或者數據庫在地址匹配過程中起到空間參考作用。

35.柵格數據的空間分析方法:距離製圖、密度製圖、表面分析、統計分析、重分類、柵格計算。

36.距離製圖中基本概念:1源:距離分析中的目標或目的`地;2成本:到達目標、目的地的花費,成本數據的製作一般是基於重分類功能完成的;3成本距離加權數據:也程成本累計數據,機率每個柵格到距離最近、成本最低的源的最少累加成本;4距離方向數據:表示了從每一個單元出發,沿着最低累計成本路徑到達最近源的路線方向;5分配數據:記錄每一個單元點隸屬的最近源信息,單元值就是其最近源的值;6距離製圖函數:主要包括成本加權函數(cost-weighted distance),成本方向加權數據(cost-weighted direction),成本分配加權函數(cost-weighted allocation),直線距離函數(straight-line distance),直線方向函數(straight-line direction),直線分配函數(straight-line allocation),最小成本路徑函數(shortest path),分配函數(allocation)。其中:1、2為原始數據,3—6為結果數據。

37.密度製圖:基於點數據生成的,以每個待計算網格點為中心,進行圓形區域的搜索,今兒來計算每個格網點的密度值。本質上講,密度製圖是一個通過離散採樣點進行表面內插的過程,根據內插原理不同,分為核函數密度製圖(Kernal)和簡單密度製圖(Simple)。

38.簡單密度製圖:以樣本為圓心,考搜索半徑產生圓,組成圓的柵格總面積為分母,樣本點的屬性值為分子,兩折相除得到密度值,搜索圓內每個柵格單元的密度值相同。

39.核函數密度製圖:以樣本點為圓心,考搜索半徑產生圓,圓心處的柵格單元密度值最高,離開圓心越遠,密度越低,逐步遞減,到邊界處密度值為0。圓心處密度值大小由搜索半徑決定。

40.表面分析:主要通過柵格差值生成柵格表面產生新的數據集。如等值線、坡度、坡向、山體陰影等派生數據。

41.統計分析包括:單元統計(n對1);領域統計(1對1);分類區統計(2對1)。

42.單元統計常用於同一地區多時相數據的統計,通過單元統計分析得出所需數據。例如:同一地區不同年份的人口分析,同一地區不同年份土地利用類型等。單元統計輸入數據集必須來源於同一個地理區域,並且採用相同的座標系統。

43.領域統計:是以待計算柵格為中心,向其周圍擴展一定範圍,基於這些擴展柵格數據進行函數運算,從而得到此柵格的值。即在單元對應的領域範圍指定的單元上進行統計分析,然後將結果值輸出到該單元位置。ArcGIS中提供四種領域分析窗口:Rectangle(矩形);Annulus(環形);Circle(圓形);Wedge(楔形)。

44.分類區統計:即以一個數據集的分類區為基礎,對另一個數據集進行述職統計分析,包括計算述職範圍、最大值、最小值、標準差等。利用分類區統計可以計算具有某一相同屬性的數據所包含的另一屬性數據的統計信息。e.g:計算每個污染區的平均人口密度;計算同一高程處植被類型的種類;計算同一種植被類型下高程的平均值。

45.重分類:基於原有數值,對原有數值重新進行分類整理,從而得到一組新值並輸出。重分類一般的四種分類形式:新值替代;舊值合併;重新分類;空值設置。

46.柵格計算包括:數學運算;函數運算(數學函數,柵格數據空間分析函數)。

47.空間查詢與量算是進行空間分析的定量化基礎,主要的量算:幾何量算、質心量算、形狀量算。

48.空間內插:a在現有離散曲面分辨率、象元大小或方向與要求不符(柵格數據重採樣);b現有數據不能完覆蓋所要求的區域範圍(如將離散採樣點數據內插為連續數據表面)。

49.徑向基函數插值:必須通過實測點,表面總曲率最小。

ing插值:基於統計學的插值方法,是根據相鄰變量的值,利用變異函數解釋的區域化變量的內在聯繫來估計空間變量數值。

51.柵格數據的重採樣:處理柵格分辨率匹配問題。主要的三種方法:最鄰近法採樣;雙線性採樣;三次卷積採樣。

52.三維空間分析:創建表面;表面分析;三維可視化;水文分析。

53.創建表面:TIN表面的創建;柵格表面的創建(通過柵格點位的空間內插來實現)。

54.柵格表面的創建(由點數據插值生成柵格面)方法:1反距離加權插值法(適用於變量影響隨距離增加而減小的情況)、2樣條函數法(適用於漸變的表面屬性)、3克里格法(適用於已知數據含距離和方向上偏差的情況)等。調整參數方法:1可變半徑的飯距離加權插值;2固定半徑的飯距離加權插值;3張力樣條插值;4規則樣條插值。

55.表面分析:計算表面積與體積;地形因子提取(其中坡度、坡向、平面曲率、剖面曲率在ArcGIS中可直接提取)。

56.兩種表面模型:柵格表面,TIN表面。

e:指通過該店的切平面與水平面的夾角,表示了地表在該點的傾斜程度。坡度兩種表示方法:坡度(degree of slope,水平面與地形面之間夾角),坡度百分比(percent slope,高程增量與水平增量之比的百分數)1柵格表面shope提取與TIN表面坡度的提取:(TIN表面構成三角網的每個三角形構成一個平面,表面上某點必處在某一三角形,則該點的坡度指其所處平面與水平之間的夾角)。2柵格表面坡向(指地表面上一點的切平面的法線矢量在水平面的投影與過該店的正北方向的夾角,表徵了該點高程值改變量的最大變化方向);TIN表面坡向(指該店所處三角面的坡向,即該三角面法線方向在平面上的投影所知的方向)。

58.可視性分析:a視線瞄準線;b視場;c可視性分析;d提取斷面;e山體陰影;f表面長度的計算;g等值線繪製。

59.水文分析:無窪地DEM生成;匯流量積累;水流長度;河網的提取。

60.無窪地DEM生成:1)水流方向提取(通過計算柵格與鄰域柵格的最大距離權落差來確定;距離權落差指中心柵格與鄰域柵格高程差/兩柵格間的距離);2)窪地計算(窪地區域是水流方向不合理的地方);3)窪地填充。

61.匯流累積量:是基於水流方向數據計算而來的。每個柵格的匯流累積量大小代表其上游有多少柵格的水流方向最終匯流經過該柵格,數值越大,越易形成地表徑流。

62.水流長度:地面上一點鹽水流方向到其流向終點間的最大地面距離在水平面上的投影。提取方式:順流計算(計算地面上沒一點沿水流方向到該店所在流域出水口最大地面距離的水平投影);溯流計算(計算地面上每點沿水流方向到其流向起點最大地面距離的水平投影)。

63.河網的提取過程:1先是無窪地DEM的生成:利用水流方向數據計算出DEM數據中的窪地數據,並計算窪地深度,依據這些窪地深度設定填充閾值進行窪地填充;2在無窪地DEM上利用最大坡降法計算出每個柵格水流方向;3利用水流方向柵格數據計算出每個柵格數據在水流方向上累計柵格數,即匯流累計量(代表在一個柵格位置上有多少個柵格的水流方向流經該柵格),當匯流量達到一定值時會產生地表水流;4設定臨界數值,當所有匯流量大於那個臨界數值的柵格就是潛在的水流路徑,這些水流路徑構成的網絡,就是河網。

64.空間統計分析:空間數據的統計分析,核心是認識與地理位置相關的數據間的空間依賴、空間關聯或空間自相關,通過空間位置建立數據間的統計關係。是以區域化變量理論為基礎,以變異函數為基本工具來研究分佈於空間並呈現出一定隨機性和結構性的自然現象的科學

65.空間統計:將空間信息與屬性信息進行統一的考慮,研究特定屬性或屬性之間與空間位置的關係。(幾乎所有的空間數據都具有空間依賴或空間自相關特徵。

66.空間統計分析與GIS: 1相同點:二者均能處理具有空間座標的信息;2不同點:GIS側重於圖形顯示,即描述空間現象及其屬性特徵的相互關係;而空間統計分析側重於數值計算,即應用空間分析模型進行有關空間自相關、空間結構、空間插值、空間模擬等方面的計算。

67.空間相關性:檢測空間上兩種現象(統計量)的變化是否存在相關性。e.g:水稻產量往往與所處土壤肥沃程度有關。

68.空間自相關:研究空間中,某個空間單元與周圍的單元之間,就某種特徵,通過統計方法,進行空間相關性的計算,以分析這些空間單元在空間上分佈現象的特性。研究的是不同對象的統一屬性在空間上的相互關係。

69.探索性空間數據分析(ESDA):利用統計學原理和圖形圖表相結合對空間信息的性質進行分析、鑑別,用以引導確定模型的結構和解法。內容:1)檢查數據是否有誤;2)獲得數據的分佈特徵;3)對數據規律的初步考察。

數學方法:1直方圖;2Q-Q概率圖;3趨勢分析;4半變異/協方差函數雲圖;5正交協方差函數雲圖。

71.直方圖:適用於對大量樣點數據進行整理加工,找出其統計規律,即數據分佈形態,以便對其總體特徵進行推斷的方法。它的兩個重要參數:概率分佈(顯示觀測值落在一定空間中的頻率的一種柱狀圖),概括性統計指標(可用位置指標、分佈指標、形狀指標加以表達)。

72.Q-Q概率圖:主要用來評估具有N個值的單變量樣本數據是否服從正態分佈。是用來檢驗樣點數據分佈的統計圖,如果被檢驗樣點數據符合所指定分佈,代表樣點的點簇在一條直線上。分為:正態概率圖和反趨勢正態概率圖。

73.趨勢圖:樣點的位置在X、Y平面上表示,對於感興趣的屬性值,通過垂直方向上的Z軸表示,構成三維視圖,趨勢分析時,將Z軸數據值投影到X、Y平面作散點圖,然後用多項式擬合。

應用:1)檢驗數據分佈(可用直方圖和Q-Q概率圖直觀地檢驗數據分佈形狀);2)尋找離羣值(常用直方圖和半變異函數查找現象的真實異常值,即離羣點);3)全局趨勢分析。

75.地統計分析基礎:1)前提假設(隨機過程,正態分佈);2)區域化變量;3)變異分析(協方差函數,變異函數);4)空間插值。

76.區域化變量兩個重要特徵:隨機性和結構性。區域化隨機變量之間的差異,可用空間協方差來表示。

ing插值:根據變異函數模型發展起來的一系列地統計的空間插值方法;包括:普通克里格法,泛克里格法,指示克里格法,析取克里格法,協同克里格法等。

38.克里格插值法(Kriging)是用協方差函數和變異函數來確定高程變量隨空間距離而變化的規律,以距離為自變量的變異函數,計算相鄰高程值關係權值,在有限區域內對區域化變量進行無偏最優估計的一種方法,是地統計學的主要方法之一。ArcGIS9.3中的克里格插值方法主要有以下幾種類型:普通克里格(Ordinary Kriging)、簡單克里格(Simple Kriging)、泛克里格(Universal Kriging)、指示克里格(Indicator Kriging)、概率克里格(Probability Kriging)、析取克里格(Disjunctive Kriging)和協同克里格(Co-Kriging)。不同的插值方法的適用的條件不同,普通克里格法、簡單克里格法和泛克里格法前提條件是樣本數據符合正態分佈。當假設高程值的期望值是未知時,選用普通克里格;當假設高程值的期望值為某一已知常數時,選用簡單克里格;當只需瞭解屬性值是否超過某一閾值時,選用指示克里格;當數據存在主導趨勢時,選用泛克里格;若不服從正態分佈時,選用析取克里格;當同一事物的兩種屬性存在相關關係,且一種屬性不易獲取時,可選用協同克里格方法,藉助另一屬性實現該屬性的空間內插。

使用克里格首先要進行數據分析的,看它是否滿足條件,如果不滿足要進行數據變換。

克里格插值法很複雜的,計算時間也慢,一般情況下用反距離權重和自然鄰近差值(voronoi)

空間數據分析模型(南京師範大學)

7.1 空間數據 按照空間數據的維數劃分,空間數據有四種基本類型:點數據、線數據、面數據和體數據。

點是零維的。從理論上講,點數據可以是以單獨地物目標的抽象表達,也可以是地理單元的抽象表達。這類點數據種類很多,如水深點、高程點、道路交叉點、一座城市、一個區域。

線數據是一維的。某些地物可能具有一定寬度,例如道路或河流,但其路線和相對長度是主要特徵,也可以把它抽象為線。其他的線數據,有不可見的行政區劃界,水陸分界的岸線,或物質運輸或思想傳播的路線等。

面數據是二維的,指的是某種類型的地理實體或現象的區域範圍。國家、氣候類型和植被特徵等,均屬於面數據之列。

真實的地物通常是三維的,體數據更能表現出地理實體的特徵。一般而言,體數據被想象為從某一基準展開的向上下延伸的數,如相對於海水面的陸地或水域。在理論上,體數據可以是相當抽象的,如地理上的密度係指單位面積上某種現象的許多單元分佈。

在實際工作中常常根據研究的需要,將同一數據置於不同類別中。例如,北京市可以看作一個點(區別於天津),或者看作一個面(特殊行政區,區別於相鄰地區),或者看作包括了人口的“體”。

7.2空間數據分析

空間數據分析涉及到空間數據的各個方面,與此有關的內容至少包括四個領域。

1)空間數據處理。空間數據處理的概念常出現在地理信息系統中,通常指的是空間分析。就涉及的內容而言,空間數據處理更多的偏重於空間位置及其關係的分析和管理。

2)空間數據分析。空間數據分析是描述性和探索性的,通過對大量的複雜數據的處理來實現。在各種空間分析中,空間數據分析是重要的組成部分。空間數據分析更多的偏重於具有空間信息的屬性數據的分析。

3)空間統計分析。使用統計方法解釋空間數據,分析數據在統計上是否是“典型”的,或“期望”的。與統計學類似,空間統計分析與空間數據分析的內容往往是交叉的。

4)空間模型。空間模型涉及到模型構建和空間預測。在人文地理中,模型用來預測不同地方的人流和物流,以便進行區位的優化。在自然地理學中,模型可能是模擬自然過程的空間分異與隨時間的變化過程。空間數據分析和空間統計分析是建立空間模型的基礎。

7.3空間數據分析的一些基本問題

空間數據不僅有其空間的定位特性,而且具有空間關係的連接屬性。這些屬性主要表現為空間自相關特點和與之相伴隨的可變區域單位問題、尺度和邊界效應。傳統的統計學方法在對數據進行處理時有一些基本的假設,大多都要求“樣本是隨機的”,但空間數據可能不一定能滿足有關假設,因此,空間數據的分析就有其特殊性(David,2003)。

7.3.1 空間自相關

空間自相關是空間位置上越靠近,事物或現象就越相似,即事物或現象具有對空間位置的依賴關係。如氣温、濕度等的空間分佈均體現了與海陸距離、海拔高程等的相關性。如果沒有空間自相關,地理事物或地理現象的分佈將是隨意的,地理學中的空間分異規律就不能體現出來。空間自相關性使得傳統的統計學方法不能直接用於分析地理現象的空間特徵。因為傳統的統計學方法的基本假設就是獨立性和隨機性。為了分析具有空間自相關性的地理現象,需要對傳統的統計學方法進行改進與發展,空間統計學就應運而生了。

如果我們想確定某個位置測定的屬性值是否合適,自相關分析將幫助我們記述已知的觀測位置在多大程度上是有用的。自相關有三種:正自相關,負自相關和無相關(零自相關)。正自相關是最常見的,指的是附近的觀察值很可能是彼此相似的;負自相關較少見,指的是附近的觀察值很可能是彼此不同的;零自相關指的是無法辨別空間效應,觀察值在空間上似乎是隨機變化的。區分這三種自相關是統計方法正確應用的前提。7.3.2 可變區域單位問題

空間數據處理中存在的一個重要問題是空間範圍對空間分析的影響。大區域的數據可能來自小區域詳細數據的統計彙總。以國家級人口普查數據的統計彙總為例,人口調查以户為單位進行,而產生的人口調查報告中的數據則是不同區域層次人口數據彙總統計的結果。彙總單位與所研究的現象沒有任何關係,但是彙總單位影響着由基層單位產生的統計結果。

統計彙總的區域層次不同,統計結果間的關係也就不同,這就產生了可變區域單位問題(modifiable areal unit problem,MAUP)。如果在特定的研究中指定了不同的空間單位,觀察到的格局和關係可能有很大的差異。這個問題可以參考圖 7.1。圖中使用了橫向和縱向兩種不同的彙總方法,形成了兩種不同的迴歸分析結果,由此説明彙總單位對迴歸方程和確定係數的影響是很明顯,迴歸關係通過彙總得到了加強。事實上,利用同樣的數據通過不同的彙總方式可以使得相關係數在-1和1之間任意變化。

由彙總單位產生的影響有兩個。第一個影響與分析的空間範圍和彙總效應有關。彙總之後的平均值更接近於迴歸線,使得散點圖的結果更接近於線性,導致相關係數增加。一般通過彙總往往產生更好的擬合結果。第二個影響是不同彙總方法得到的結果實質上是不同的。

7.3.3 生態學謬誤

可變區域單位問題與更一般的統計問題——生態學謬誤相聯繫。當特定彙總層次的觀察值之間的統計關係假定可以接受,然後在更細的層次接受同樣關係的時候,就產生了這個問題。例如,在國家這個層次上,我們可能看到收入和犯罪之間有強烈的關係,即低收入往往伴隨着高犯罪。但是,如果我們據此認為低收入的人更可能幹壞事,那就犯了生態學謬誤的錯誤。事實上,對於這樣的數據,有效的精確的説法是:低收入國家傾向於經歷較高的犯罪。是什麼導致了這些觀察到的現象,可能有很大的差異:有可能是低收入地區治安很差,夜賊很多;或者是這些地區的人經常酗酒;或者根本就與收入沒有關係。重要的是,高層次彙總數據中出現的關係應該在底層彙總 數據中重現並得到解釋。

這個問題很普遍。如果你關注新聞,在每天的日常生活或媒體中都可以發現生態學謬誤。犯罪率和死刑,槍控制與關押率,車禍與車速限制等。不幸的是,生態學謬誤在學術界也不少見。這個問題經常發生,其根本的原因可能是為了簡化解釋。事實上,特別在人文地理中,事情很少這麼簡單。生態學謬誤和可變區域單位問題都要注意的是:統計關係會隨着彙總層次而發生變化。

7.3.4 空間尺度

進行空間分析時,必須考慮空間尺度問題。不同對象的表現需要的不同尺度,例如,在大陸尺度,城市用點來表示。在區域尺度,城市用面來表示。在局部尺度,城市成為複雜的點、線、面和網絡的集合體。研究對象的空間尺度影響空間分析。因此,應當選定正確的或合適的空間尺度。

7.3.5 空間非均一性和邊界效應

區分空間分析與傳統統計分析的重要標誌是空間的不均一性。例如,蒐集到城區犯罪位置的數據,並用點在地圖上標繪出來,就能可視化地表示犯罪的空間分佈規律。在居住區和工作密集的地方,犯罪會有明顯的聚集性,在公園或道路的交叉口,可能會出現空缺。這些聚集或空缺只是城市內部不均一性的一個結果。類似的問題是考慮疾病發生率的時候,必須考慮從事高風險工作的人所在的位置。目前,處理這些問題的方法還很少。

邊界效應是不均一問題的一個特殊類型。邊界效應問題是指在研究區的中心位置,各個方向上的觀察值相接近;在研究區的邊界,只有研究區內的觀察值才是相接近的。因此,確定適當的邊界才可能反映數據的真實性。

7.4 空間數據的關係

空間數據中藴涵了豐富的信息,本章僅考慮空間數據的位置屬性所能提供的信息。

重要的空間概念是:距離(distance)、鄰接(adjacency)和交互(interaction),與此密切相關的術語是近鄰(neighborhood)。在空間數據分析中,我們不僅對屬性數據的均值、方差等進行分析,也對空間上相聯繫的實體的分佈進行分析。空間分佈指的是空間實體之間的關係,可以通過距離、鄰接和交互分析,獲得對空間關係的認識。

7.4.1 距離

在空間數據中,距離是空間實體間的直線距離或球面距離。空間數據中的距離不同於數學上的距離(數學上的距離值兩個變量/樣本之間的距離,參閲模糊數學一章)。在小的地區(小尺度的研究),可以忽略地球曲率的影響,通常使用歐氏距離。對於空間上的兩個點i,j,其座標分別為(xi,yi),(xj,yj),那麼兩點之間的直線距離為:在較大的區域(大尺度研究),距離的計算要考慮地球的曲率。

除了直線距離外,實際應用中也可按照道路、鐵路、河流或路網來計算距離;也可按照消耗的時間來計算距離。

7.4.2 鄰接

鄰接可以認為是名義的、雙向的相等的距離。兩個空間實體,或者相鄰或者不相鄰,沒有中間狀態。確定相鄰有多種方式。最簡單的確定方式是,如果兩個實體在指定的空間距離內,那麼它們是相鄰的,否則不相鄰。類似的,對於任一實體,確定出與其最相鄰的其他實體。我們也可以認為只有最鄰近的實體才是相鄰的。

與距離一樣,對鄰接的概念也可以進行擴展。鄰接的實體不一定是相近的。例如,就機場而言,在考慮上海、北京和莫斯科機場的鄰接關係時,可以認為上海機場與北京機場、北京機場與莫斯科機場是鄰接的,但上海機場與莫斯科機場則不鄰接的。

鄰接的概念主要應用在空間自相關分析、空間插值和網絡分析中。

7.4.3 交互

交互可以認為是距離和鄰接的綜合,它來自於一個基本的想法:近處的事物關係更密切。從數學上講,可將兩個空間實體之間的交互度表示為0(無交互)和1(高度交互)之間的數。鄰接也可以用類似的方式來表示,因為鄰接是雙向的。在空間分析中,典型的交互可用距離倒數加權來定義:

其中,w是距離為d的兩個實體i,j之間的交互權重。k控制着權重的變化率。距離越近,權重越大,交互越強。

通用的交互計算中使用兩個實體的屬性值,例如人口的引力公式為:

其中,pi,pj是i,j兩地的人口數量。

此外,也可以在公式中加入面積來定義兩個區域單位間的交互。

除了空間距離外,也可以使用其它的距離定義。例如,可以使用兩個國家的貿易量來定義交互程度。

7.4.4 近鄰

近鄰有多種表達方式。例如,特定空間實體的近鄰是與該實體鄰接的其他空間實體的集合,此時,近鄰依賴於鄰接的定義。此外,可以不考慮鄰接性,將近鄰定義為空間上相聯繫的區域,此時則需要使用距離的概念。近鄰的概念經常被使用,主要是由於空間分佈上鄰近的區域更為相似。這是一種內部相似,不同於周邊區域。例如,考慮海拔高度,山是一種近鄰,其周圍的海拔都較高。圖7.2進一步揭示了這四個概念。左上角的圖指明瞭研究區內A到其它點的距離。一般而言,總是可以確定兩點之間的距離。在右上角的圖中,按照距離指明瞭與A鄰接的兩點E和F。這種鄰接可以通過多種方法來定義。例如,以50米內為鄰接的距離。注意,這種定義意味着D沒有鄰接的對象。我們也可以定義最近的對象是鄰接對象,這可以保證所有的對象都有兩個鄰接對象,雖然它同時意味着鄰接不再是對稱關係。例如,此時,D與E鄰接(最近的是C和E),但E並不鄰接D(與E最近的是A)。在左下角的圖中,使用線寬指明A與其它對象的交互作用強度。這裏,交互是距離的倒數,所以A與E交互作用強。在右下角的圖中,給出了對象A的兩個可能的近鄰,曲線內是與A鄰接的對象,包括了A,E和F。另一個可能的近鄰是帶陰影的多邊形,該空間也接近於A。

7.5 空間自相關分析

空間自相關分析包括全程空間自相關分析和局部空間自相關分析兩部分(Getis and Ord,1996),自相關分析的結果可用來解釋和尋找存在的空間聚集性或“焦點”。空間自相關分析需要的空間數據類型是點或面數據,分析的對象是具有點/面分布特徵的特定屬性。

全程空間自相關分析用來分析在整個研究範圍內指定的屬性是否具有自相關性。局部空間自相關分析用來分析在特定的局部地點指定的屬性是否具有自相關性。具有正自相關的屬性,其相鄰位置值與當前位置的值具有較高的一致性。

Tags:數據分析