熱點推薦:
您现在的位置: 電腦知識網 >> 編程 >> SQL語言 >> 正文

全面解析基於空間數據庫的數據挖掘技術[1]

2022-06-13   來源: SQL語言 

  隨著GIS技術在各個行業的應用以及數據挖掘空間數據采集技術數據庫技術的迅速發展對從空間數據庫發現隱含知識的需求日益增長從而出現了用於在空間數據庫中進行知識發現的技術——空間數據挖掘(Spatial Data Mining本文簡稱為SDM)空間數據挖掘是從空間數據庫中提取隱含的用戶感興趣的空間和非空間模式和普遍特征的過程

  本文分析了空間數據庫知識發現面臨的困難研究了擴展傳統數據挖掘方法如分類關聯規則聚類等到空間數據庫的方法並對空間數據庫系統實現技術及空間數據挖掘系統開發模式等進行了比較分析

   空間數據庫知識發現面臨的困難

  從空間數據庫發現知識的傳統途徑是通過專家系統數據挖掘空間分析等技術來實現的但是在空間數據庫隱含知識的發現方面只單獨依*某一種技術往往存在著這樣或那樣的缺陷對於專家系統來講專家系統不具備自動學習的能力GIS中的專家系統也達不到真正的智能系統的要求僅能利用已有的知識進行推導對於數據挖掘來講空間數據庫與普通數據庫的在數據存儲機制的不同和空間數據的相互依賴性等特點決定了在空間數據庫無法直接采用傳統的數據挖掘方法對於空間分析來講雖然空間分析中常用的統計方法可以很好地處理數字型數據但是它存在的問題很多如統計方法通常假設空間分布的數據間是統計上獨立的而現實中空間對象間一般是相互關聯的;其次統計模型一般只有具有相當豐富領域知識和統計方面經驗的統計專家才能用;另外統計方法對大規模數據庫的計算代價非常高所以在處理海量數據方面能力較低

  從上面的分析可以看出由於空間數據具有諸多特點因此在空間數據庫進行知識發現需要克服使用單一技術的缺陷即需要融合多種不同技術所以研究人員提出了空間數據挖掘技術來解決從空間數據庫知識發現隱含知識的難題

  空間數據挖掘是多學科和多種技術交*綜合的新領域它綜合了機器學習空間數據庫系統專家系統可移動計算統計遙感基於知識的系統可視化等領域的有關技術

  空間數據挖掘利用空間數據結構空間推理計算幾何學等技術把傳統的數據挖掘技術擴充到空間數據庫並提出很多新的有效的空間數據挖掘方法與傳統空間分析方法相比它在實現效率與數據庫系統的結合與用戶的交互發現新類型的知識等方面的能力大大增強空間數據挖掘能與GIS的結合使GIS系統具有自動學習的功能能自動獲取知識從而成為真正的智能空間信息系統

   擴展傳統數據挖掘方法到空間數據庫

  空間數據挖掘技術按功能劃分可分為三類描述解釋預測描述性的模型將空間現象的分布特征化如空間聚類解釋性的模型用於處理空間關系如處理一個空間對象和影響其空間分布的因素之間的關系預測型的模型用來根據給定的一些屬性預測某些屬性預測型的模型包括分類回歸等以下介紹將幾個典型的數據挖掘技術聚類分類關聯規則擴展到空間數據庫的方法

  聚類分析方法按一定的距離或相似性測度將數據分成一系列相互區分的組而空間數據聚類是按照某種距離度量准則在某個大型多維數據集中標識出聚類或稠密分布的區域從而發現數據集的整個空間分布模式經典統計學中的聚類分析方法對海量數據效率很低而數據挖掘中的聚類方法可以大大提高聚類效率文獻[]中提出兩個基於CLARANS聚類算法空間數據挖掘算法SD和ND可以分別用來發現空間聚類中的非空間特征和具有相同非空間特征的空間聚類SD算法首先用CLARANS算法進行空間聚類然後用面向屬性歸納法尋找每個聚類中對象的高層非空間描述;ND算法則反之文獻[]中提出一種將傳統分類算法ID決策樹算法擴展到空間數據庫的方法該算法給出了計算鄰近對象非空間屬性的聚合值的方法並且通過對空間謂詞進行相關性分析和采用一種逐漸求精的策略使得計算時間復雜度大大降低Koperski等[]將大型事務數據庫的關聯規則概念擴展到空間數據庫用以找出空間對象的關聯規則此方法采用一種逐漸求精的方法計算空間謂詞首先在一個較大的數據集上用MBR最小邊界矩形結構技術對粗略的空間謂詞進行近似空間運算然後在裁剪過的數據集上用代價較高的算法進一步改進挖掘的質量

   空間數據庫實現技術

  空間數據挖掘系統中空間數據庫負責空間數據和屬性數據的管理它的實現效率對整個挖掘系統有著舉足輕重的影響所以下面詳細介紹空間數據庫的實現技術

  根據空間數據庫中空間數據和屬性數據的管理方式空間數據庫有兩種實現模式集成模式和混合模式後者將非空間數據存儲在關系數據庫中將空間數據存放在文件系統中這種采用混合模式的空間數據庫中空間數據無法獲得數據庫系統的有效管理並且空間數據采用各個廠商定義的專用格式通用性差而集成模式是將空間數據和屬性數據全部存儲在數據庫中因此現在的GIS軟件都在朝集成結構的空間數據庫方向發展下面對集成結構的空間數據庫技術中的兩個主流技術基於空間數據引擎技術的空間數據庫和以Oracle Spatial為代表的通用空間數據庫進行比較分析

  空間數據引擎是一種處於應用程序和數據庫管理系統之間的中間件技術使用不同GIS廠商的客戶可以通過空間數據引擎將自身的數據交給大型關系型DBMS統一管理;同樣客戶也可以通過空間數據引擎從關系型DBMS中獲取其他類型GIS的數據並轉化成客戶可使用的方式它們大多是在Oraclei Spatial(較成熟的空間數據庫版本月推出)推出之前由GIS軟件開發商提供的將空間數據存入通用數據庫的解決方案且該方案價格昂貴

  Oracle Spatial提供一個在數據庫管理系統中管理空間數據的完全開放體系結構Oracle Spatial提供的功能與數據庫服務器完全集成用戶通過SQL定義並操作空間數據且保留了Oracle的一些特性如靈活的n層體系結構對象定義健壯的數據管理機制Java存儲過程它們確保了數據的完整性可恢復能力和安全性而這些特性在混合模式結構中幾乎不可能獲得在Oracle Spatial中用戶可將空間數據當作數據庫的特征使用可支持空間數據庫的復制分布式空間數據庫以及高速的批量裝載而空間中間件則不能除了允許使用所有數據庫特性以外Spatial Cart ridge還提供用戶使用行列來快速訪問數據使用簡單的SQL語句應用者就能直接選取多個記錄Spatial Cart ridge數據模型也給數據庫管理員提供了極大的靈活性DBA可使用常見的管理和調整數據庫的技術

   空間數據挖掘系統的開發

   通用SDM系統

  在空間數據挖掘系統的開發方面國際上最著名的有代表性的通用SDM系統有GeoMinerDescartes和ArcView GIS的SPLUS接口GeoMiner是加拿大Simon Fraser大學開發的著名的數據挖掘軟件DBMiner的空間數據挖掘的擴展模塊空間數據挖掘原型系統GeoMiner包含有三大模塊空間數據立方體構建模塊空間聯機分析處理(OLAP)模塊和空間數據采掘模塊能夠進行交互式地采掘並顯示采掘結果空間數據采掘模塊能采掘種類型的規則特征規則判別規則和關聯規則GeoMiner采用SAND體系結構采用的空間數據采掘語言是GMQL其空間數據庫服務器包括MapInfoESRI/OracleSDEInformixIllustra以及其它空間數據庫引擎

  Descartes可支持可視化的分析空間數據它與開發此軟件的公司所開發的數據挖掘工具Kepler結合使用Kepler完成數據挖掘任務且擁有自己的表現數據挖掘結果的非圖形界面Kepler和Descarte動態鏈接把傳統DM與自動作圖可視化和圖形表現操作結合起來實現C決策樹算法聚類關聯規則的挖掘

  ArcView GIS的SPLUS接口是著名的ESRI公司開發的它提供工具分析空間數據中指定類

  除了以上空間數據挖掘系統外還有GwiM等系統

  從以上SDM系統可以看出它們的共同優點是把傳統DM與地圖可視化結合起來提供聚類分類等多種挖掘模式但它們在空間數據的操作上實現方式不盡相同Descartes是專門的空間數據可視化工具它只有與DM工具Kepler結合在一起才能完成SDM任務而GeoMiner是在MapInfo平台上二次開發而成系統龐大造成較大的資源浪費SPLUS的局限在於它采用一種解釋性語言(Script)其功能的實現比用C和C++直接實現要慢得多所以只適合於非常小的數據庫應用基於現存空間數據挖掘系統的結構所存在的缺陷我們提出空間數據挖掘系統一種新的實現方案

[]  []  


From:http://tw.wingwit.com/Article/program/SQL/201311/16146.html
    推薦文章
    Copyright © 2005-2022 電腦知識網 Computer Knowledge   All rights reserved.