熱點推薦:
您现在的位置: 電腦知識網 >> 操作系統 >> Windows服務器 >> 正文

XML與面向Web的數據挖掘技術

2022-06-13   來源: Windows服務器 

  面向Web的數據挖掘
  
    Web上有海量的數據信息怎樣對這些數據進行復雜的應用成了現今數據庫技術的研究熱點數據挖掘就是從大量的數據中發現隱含的規律性的內容解決數據的應用質量問題充分利用有用的數據廢棄虛偽無用的數據是數據挖掘技術的最重要的應用相對於Web的數據而言傳統的數據庫中的數據結構性很強即其中的數據為完全結構化的數據而Web上的數據最大特點就是半結構化所謂半結構化是相對於完全結構化的傳統數據庫的數據而言顯然面向Web的數據挖掘比面向單個數據倉庫的數據挖掘要復雜得多
  
    異構數據庫環境
  
    從數據庫研究的角度出發Web網站上的信息也可以看作一個數據庫一個更大更復雜的數據庫Web上的每一個站點就是一個數據源每個數據源都是異構的因而每一站點之間的信息和組織都不一樣這就構成了一個巨大的異構數據庫環境如果想要利用這些數據進行數據挖掘首先必須要研究站點之間異構數據的集成問題只有將這些站點的數據都集成起來提供給用戶一個統一的視圖才有可能從巨大的數據資源中獲取所需的東西其次還要解決Web上的數據查詢問題因為如果所需的數據不能很有效地得到對這些數據進行分析集成處理就無從談起
  
    半結構化的數據結構
  
    Web上的數據與傳統的數據庫中的數據不同傳統的數據庫都有一定的數據模型可以根據模型來具體描述特定的數據而Web上的數據非常復雜沒有特定的模型描述每一站點的數據都各自獨立設計並且數據本身具有自述性和動態可變性因而Web上的數據具有一定的結構性但因自述層次的存在從而是一種非完全結構化的數據這也被稱之為半結構化數據半結構化是Web上數據的最大特點
  
    解決半結構化的數據源問題
  
    Web數據挖掘技術首要解決半結構化數據源模型和半結構化數據模型的查詢與集成問題解決Web上的異構數據的集成與查詢問題就必須要有一個模型來清晰地描述Web上的數據針對Web上的數據半結構化的特點尋找一個半結構化的數據模型是解決問題的關鍵所在除了要定義一個半結構化數據模型外還需要一種半結構化模型抽取技術即自動地從現有數據中抽取半結構化模型的技術面向Web的數據挖掘必須以半結構化模型和半結構化數據模型抽取技術為前提
  
  XML與Web數據挖掘技術
  
    以XML為基礎的新一代WWW環境是直接面對Web數據的不僅可以很好地兼容原有的Web應用而且可以更好地實現Web中的信息共享與交換XML可看作一種半結構化的數據模型可以很容易地將XML的文檔描述與關系數據庫中的屬性一對應起來實施精確地查詢與模型抽取
  
    XML的產生與發展
  
    XML(eXtensibleMarkupLanguage)是由萬維網協會(WC)設計特別為Web應用服務的SGML(StandardGeneralMarkupLanguage)的一個重要分支總的來說XML是一種中介標示語言(MetamarkupLanguage)可提供描述結構化資料的格式詳細來說XML是一種類似於HTML被設計用來描述數據的語言XML提供了一種獨立的運行程序的方法來共享數據它是用來自動描述信息的一種新的標准語言它能使計算機通信把Internet的功能由信息傳遞擴大到人類其他多種多樣的活動中去XML由若干規則組成這些規則可用於創建標記語言並能用一種被稱作分析程序的簡明程序處理所有新創建的標記語言正如HTML為第一個計算機用戶閱讀Internet文檔提供一種顯示方式一樣XML也創建了一種任何人都能讀出和寫入的世界語XML解決了HTML不能解決的兩個Web問題即Internet發展速度快而接入速度慢的問題以及可利用的信息多但難以找到自己需要的那部分信息的問題XML能增加結構和語義信息可使計算機和服務器即時處理多種形式的信息因此運用XML的擴展功能不僅能從Web服務器下載大量的信息還能大大減少網絡業務量
  XML中的標志(TAG)是沒有預先定義的使用者必須要自定義需要的標志XML是能夠進行自解釋(SelfDescribing)的語言XML使用DTD(DocumentTypeDefinition文檔類型定義)來顯示這些數據XSL(eXtensibleStyleSheetLanguage)是一種來描述這些文檔如何顯示的機制它是XML的樣式表描述語言XSL的歷史比HTML用的CSS(層疊式樣式表CascadingStyleSheets)還要悠久XSL包括兩部分一個用來轉換XML文檔的方法一個用來格式化XML文檔的方法XLL(eXtensibleLinkLanguage)是XML連接語言它提供XML中的連接與HTML中的類似但功能更強大使用XLL可以多方向連接且連接可以存在於對象層級而不僅僅是頁面層級由於XML能夠標記更多的信息所以它就能使用戶很輕松地找到他們需要的信息利用XMLWeb設計人員不僅能創建文字和圖形而且還能構建文檔類型定義的多層次相互依存的系統數據樹元數據超鏈接結構和樣式表
  
    XML的主要特點
  
    正是XML的特點決定了其卓越的性能表現XML作為一種標記語言有許多特點
  
    ()簡單XML經過精心設計整個規范簡單明了它由若干規則組成這些規則可用於創建標記語言並能用一種常常稱作分析程序的簡明程序處理所有新創建的標記語言XML能創建一種任何人都能讀出和寫入的世界語這種創建世界語的功能叫做統一性功能如XML創建的標記總是成對出現以及依靠稱作統一代碼的新的編碼標准
  
    ()開放XML是SGML在市場上有許多成熟的軟件可用來幫助編寫管理等開放式標准XML的基礎是經過驗證的標准技術並針對網絡做最佳化眾多業界頂尖公司與WC的工作群組並肩合作協助確保交互作業性支持各式系統和浏覽器上的開發人員作者和使用者以及改進XML標准XML解釋器可以使用編程的方法來載入一個XML的文檔當這個文檔被載入以後用戶就可以通過XML文件對象模型來獲取和操縱整個文檔的信息加快了網絡運行速度
  
    ()高效且可擴充支持復用文檔片斷使用者可以發明和使用自己的標簽也可與他人共享可延伸性大在XML中可以定義無限量的一組標注XML提供了一個標示結構化資料的架構一個XML組件可以宣告與其相關的資料為零售價營業稅書名數量或其它任何數據元素隨著世界范圍內的許多機構逐漸采用XML標准將會有更多的相關功能出現一旦鎖定資料便可以使用任何方式透過電纜線傳遞並在浏覽器中呈現或者轉交到其他應用程序做進一步的處理XML提供了一個獨立的運用程序的方法來共享數據使用DTD不同的組中的人就能夠使用共同的DTD來交換數據你的應用程序可以使用這個標准的DTD來驗證你接受到的數據是否有效你也可以使用一個DTD來驗證你自己的數據
  ()國際化標准國際化且支持世界上大多數文字這源於依靠它的統一代碼的新的編碼標准這種編碼標准支持世界上所有以主要語言編寫的混合文本在HTML中就大多數字處理而言一個文檔一般是用一種特殊語言寫成的不管是英語還是日語或阿拉伯語如果用戶的軟件不能閱讀特殊語言的字符那麼他就不能使用該文檔但是能閱讀XML語言的軟件就能順利處理這些不同語言字符的任意組合因此XML不僅能在不同的計算機系統之間交換信息而且能跨國界和超越不同文化疆界交換信息
  
    XML在Web數據挖掘中的應用
  
    XML已經成為正式的規范開發人員能夠用XML的格式標記和交換數據XML在三層架構上為數據處理提供了很好的方法使用可升級的三層模型XML可以從存在的數據中產生出來使用XML結構化的數據可以從商業規范和表現形式中分離出來數據的集成發送處理和顯示是下面過程中的每一個步驟:
  
    促進XML應用的是那些用標准的HTML無法完成的Web應用這些應用從大的方面講可以被分成以下四類需要Web客戶端在兩個或更多異質數據庫之間進行通信的應用試圖將大部分處理負載從Web服務器轉到Web客戶端的應用需要Web客戶端將同樣的數據以不同的浏覽形式提供給不同的用戶的應用需要智能Web代理根據個人用戶的需要裁減信息內容的應用顯而易見這些應用和Web的數據挖掘技術有著重要的聯系基於Web的數據挖掘必須依靠它們來實現
  
    XML給基於Web的應用軟件賦予了強大的功能和靈活性因此它給開發者和用戶帶來了許多好處比如進行更有意義的搜索並且Web數據可被XML唯一地標識沒有XML搜索軟件必須了解每個數據庫是如何構建的但這實際上是不可能的因為每個數據庫描述數據的格式幾乎都是不同的由於不同來源數據的集成問題的存在現在搜索多樣的不兼容的數據庫實際上是不可能的XML能夠使不同來源的結構化的數據很容易地結合在一起軟件代理商可以在中間層的服務器上對從後端數據庫和其它應用處來的數據進行集成然後數據就能被發送到客戶或其他服務器做進一步的集合處理和分發XML的擴展性和靈活性允許它描述不同種類應用軟件中的數據從描述搜集的Web頁到數據記錄從而通過多種應用得到數據同時由於基於XML的數據是自我描述的數據不需要有內部描述就能被交換和處理利用XML用戶可以方便地進行本地計算和處理XML格式的數據發送給客戶後客戶可以用應用軟件解析數據並對數據進行編輯和處理使用者可以用不同的方法處理數據而不僅僅是顯示它XML文檔對象模式(DOM)允許用腳本或其他編程語言處理數據數據計算不需要回到服務器就能進行XML可以被利用來分離使用者觀看數據的界面使用簡單靈活開放的格式可以給Web創建功能強大的應用軟件而原來這些軟件只能建立在高端數據庫上另外數據發到桌面後能夠用多種方式顯示
  
    XML還可以通過以簡單開放擴展的方式描述結構化的數據XML補
From:http://tw.wingwit.com/Article/os/fwq/201311/10226.html
    推薦文章
    Copyright © 2005-2022 電腦知識網 Computer Knowledge   All rights reserved.